Datenqualität in ML-Systemen: Das unterschätzte Problem

279 EUR

629

Datenqualität in ML-Systemen: Das unterschätzte Problem

Garbage in, garbage out. Jeder kennt den Spruch, trotzdem unterschätzen die meisten Teams das Datenqualitätsproblem massiv. Ein Modell kann perfekt trainiert sein, aber wenn die Production-Daten anders aussehen als die Trainingsdaten, produziert es Nonsens.

Das Webinar fokussiert auf praktische Datenqualitätsprobleme in ML-Systemen. Missing Values, die plötzlich auftauchen obwohl sie im Training-Set nicht vorkamen. Kategorische Features mit neuen Kategorien. Numerische Features außerhalb der gesehenen Ranges. Schema Changes in Upstream-Systemen, die die komplette Pipeline brechen. Das sind keine theoretischen Probleme, das passiert ständig.

Wir schauen uns an, wie man Data Validation systematisch in ML-Pipelines einbaut. Tools wie Great Expectations oder TensorFlow Data Validation helfen, aber man muss wissen, welche Checks Sinn ergeben. Zu strenge Validierung und die Pipeline bricht ständig. Zu lockere Validierung und schlechte Daten kommen durch. Die Balance zu finden braucht Verständnis für die Datenquellen und das Business.

Ein weiteres Thema ist Data Lineage: Nachvollziehen zu können, woher jedes Feature kommt und wie es transformiert wurde. Wenn ein Modell komische Predictions macht, muss man schnell debuggen können. War es ein Problem bei der Datenextraktion? Ein Bug in der Feature-Transformation? Oder hat sich die Datenquelle selbst geändert? Ohne Lineage-Tracking verliert man Tage mit Detektivarbeit.

Ihr lernt auch, wie man Datenqualitäts-Monitoring aufsetzt. Statistische Tests, die Anomalien in eingehenden Daten erkennen. Alerts, die sinnvoll sind und nicht im Noise untergehen. Und vor allem: Wie man das Team dazu bringt, Datenqualität ernst zu nehmen und nicht als nice-to-have zu sehen.

Programm

Inhalt des Webinars

Typische Datenqualitätsprobleme in Production und ihre Auswirkungen auf Modelle
Schema Validation: Sicherstellen dass Datenstrukturen konsistent bleiben
Feature Distribution Monitoring: Erkennen wenn sich Datenverteilungen ändern
Data Validation Pipelines mit Great Expectations und TensorFlow Data Validation
Umgang mit Missing Data: Imputation-Strategien und wann man Daten lieber verwirft
Outlier Detection: Echte Anomalien vs. Datenfehler unterscheiden
Data Lineage Tracking: Von Rohdaten zu Features zu Predictions
Testing von Data Pipelines: Unit Tests, Integration Tests, End-to-End Tests
Datenqualitäts-SLAs definieren und durchsetzen
Incident Response bei Datenproblemen: Schnell debuggen und fixen

Case Study

Wir analysieren einen realen Fall, bei dem schlechte Datenqualität ein ML-System zum Absturz gebracht hat. Ihr seht, wie man das Problem hätte erkennen und verhindern können.

Fokus liegt auf praktischen Tools und Prozessen, nicht auf theoretischen Best Practices.

Jetzt anmelden

Datenqualität in ML-Systemen: Das unterschätzte Problem

Ihre Datenschutzeinstellungen