Datenqualität in ML-Systemen: Das unterschätzte Problem
Garbage in, garbage out. Jeder kennt den Spruch, trotzdem unterschätzen die meisten Teams das Datenqualitätsproblem massiv. Ein Modell kann perfekt trainiert sein, aber wenn die Production-Daten anders aussehen als die Trainingsdaten, produziert es Nonsens.
Das Webinar fokussiert auf praktische Datenqualitätsprobleme in ML-Systemen. Missing Values, die plötzlich auftauchen obwohl sie im Training-Set nicht vorkamen. Kategorische Features mit neuen Kategorien. Numerische Features außerhalb der gesehenen Ranges. Schema Changes in Upstream-Systemen, die die komplette Pipeline brechen. Das sind keine theoretischen Probleme, das passiert ständig.
Wir schauen uns an, wie man Data Validation systematisch in ML-Pipelines einbaut. Tools wie Great Expectations oder TensorFlow Data Validation helfen, aber man muss wissen, welche Checks Sinn ergeben. Zu strenge Validierung und die Pipeline bricht ständig. Zu lockere Validierung und schlechte Daten kommen durch. Die Balance zu finden braucht Verständnis für die Datenquellen und das Business.
Ein weiteres Thema ist Data Lineage: Nachvollziehen zu können, woher jedes Feature kommt und wie es transformiert wurde. Wenn ein Modell komische Predictions macht, muss man schnell debuggen können. War es ein Problem bei der Datenextraktion? Ein Bug in der Feature-Transformation? Oder hat sich die Datenquelle selbst geändert? Ohne Lineage-Tracking verliert man Tage mit Detektivarbeit.
Ihr lernt auch, wie man Datenqualitäts-Monitoring aufsetzt. Statistische Tests, die Anomalien in eingehenden Daten erkennen. Alerts, die sinnvoll sind und nicht im Noise untergehen. Und vor allem: Wie man das Team dazu bringt, Datenqualität ernst zu nehmen und nicht als nice-to-have zu sehen.