ML-Systeme skalieren: Von 100 zu 10 Million Requests
Ein ML-System, das im Test gut läuft, kann in Production komplett kollabieren wenn der Traffic steigt. Latencies gehen durch die Decke, Kosten explodieren, oder das System fällt einfach um. Skalierung ist nicht etwas, das man später hinzufügt. Man muss es von Anfang an mitdenken.
Das Webinar behandelt konkrete Skalierungsprobleme. Model Inference ist oft der Bottleneck: Wie bekommt man die Latency runter wenn tausende Predictions pro Sekunde gebraucht werden? Model Quantization kann helfen, aber man verliert etwas Accuracy. Batch Prediction statt einzelne Requests spart massiv Ressourcen, geht aber nur wenn Real-time nicht kritisch ist. GPU vs. CPU für Inference, und wann sich was lohnt.
Dann gibt es Skalierungsprobleme bei den Daten. Feature Computation kann teuer werden wenn man für jede Prediction komplexe Aggregationen über große Datasets machen muss. Feature Stores mit vorberechneten Features lösen das teilweise, aber dann muss man die Features selbst aktuell halten. Caching-Strategien helfen, aber nur wenn man versteht, welche Features sich wie oft ändern.
Wir schauen uns auch an, wie man Kosten unter Kontrolle hält wenn das System wächst. Cloud-Kosten können schnell außer Kontrolle geraten wenn man nicht aufpasst. Autoscaling richtig konfigurieren, damit man nicht für ungenutzten Overhead bezahlt. Spot Instances für Training nutzen. Storage-Kosten optimieren durch intelligente Data Lifecycle Policies.
Am Ende geht es auch um organisatorische Skalierung. Wenn mehr Teams das ML-System nutzen wollen, braucht man klare APIs und Service-Level-Agreements. Multi-Tenancy, Resource Quotas, Fair Scheduling. Das sind keine rein technischen Probleme, sondern Product- und Policy-Entscheidungen.