ML-Systeme skalieren: Von 100 zu 10 Million Requests

329 EUR

391

ML-Systeme skalieren: Von 100 zu 10 Million Requests

Ein ML-System, das im Test gut läuft, kann in Production komplett kollabieren wenn der Traffic steigt. Latencies gehen durch die Decke, Kosten explodieren, oder das System fällt einfach um. Skalierung ist nicht etwas, das man später hinzufügt. Man muss es von Anfang an mitdenken.

Das Webinar behandelt konkrete Skalierungsprobleme. Model Inference ist oft der Bottleneck: Wie bekommt man die Latency runter wenn tausende Predictions pro Sekunde gebraucht werden? Model Quantization kann helfen, aber man verliert etwas Accuracy. Batch Prediction statt einzelne Requests spart massiv Ressourcen, geht aber nur wenn Real-time nicht kritisch ist. GPU vs. CPU für Inference, und wann sich was lohnt.

Dann gibt es Skalierungsprobleme bei den Daten. Feature Computation kann teuer werden wenn man für jede Prediction komplexe Aggregationen über große Datasets machen muss. Feature Stores mit vorberechneten Features lösen das teilweise, aber dann muss man die Features selbst aktuell halten. Caching-Strategien helfen, aber nur wenn man versteht, welche Features sich wie oft ändern.

Wir schauen uns auch an, wie man Kosten unter Kontrolle hält wenn das System wächst. Cloud-Kosten können schnell außer Kontrolle geraten wenn man nicht aufpasst. Autoscaling richtig konfigurieren, damit man nicht für ungenutzten Overhead bezahlt. Spot Instances für Training nutzen. Storage-Kosten optimieren durch intelligente Data Lifecycle Policies.

Am Ende geht es auch um organisatorische Skalierung. Wenn mehr Teams das ML-System nutzen wollen, braucht man klare APIs und Service-Level-Agreements. Multi-Tenancy, Resource Quotas, Fair Scheduling. Das sind keine rein technischen Probleme, sondern Product- und Policy-Entscheidungen.

Programm

Performance und Latency

Model Inference optimieren: Batch Processing, Quantization, Model Distillation
Hardware-Auswahl: CPU vs. GPU vs. TPU für verschiedene Workloads
Caching-Strategien für Predictions und Features
Load Balancing und Request Routing bei hohem Traffic

Daten-Skalierung

Feature Stores: Design und Implementation für schnellen Feature-Zugriff
Distributed Feature Computation mit Spark oder ähnlichen Frameworks
Data Partitioning und Sharding für große Datasets
Stream Processing für Real-time Features

Infrastructure und Kosten

Kubernetes für ML-Workloads: Ressourcen-Management und Autoscaling
Cloud-Kosten optimieren ohne Performance zu opfern
Monitoring und Profiling: Bottlenecks identifizieren
Multi-Region Deployments für globale Verfügbarkeit

Praktischer Teil

Performance-Analyse eines bestehenden Systems. Wir identifizieren Bottlenecks und entwickeln einen konkreten Skalierungsplan mit Kosten-Schätzung.

Jetzt anmelden

ML-Systeme skalieren: Von 100 zu 10 Million Requests

Ihre Datenschutzeinstellungen