Model Drift: Wenn dein Produkt leise schlechter wird
Marc GasserSerial Founder · GTM & MarketingVerbindet AI mit Revenue-Operations und baut autonome GTM-Systeme für vorhersehbares Wachstum.TL;DR
- Die Studie «Temporal quality degradation in AI models» (Vela et al., Scientific Reports 2022; Harvard, MIT, Universität Monterrey, Cambridge) fand bei 91 Prozent von 128 Modell-Datensatz-Paaren messbaren Qualitätszerfall über die Zeit. Degradation ist der Normalfall, nicht die Ausnahme.
- Drift ist ein Produktproblem, kein reines ML-Problem: Die Welt ändert sich (Daten-Drift), die Bedeutung ändert sich (Concept Drift), und bei zugekauften LLMs ändert der Anbieter das Modell unter deinen Füssen. Der PM braucht Signale, Schwellen und einen Reaktionspfad.
- Das Minimum-Setup hat drei Teile: ein fixes Eval-Set, das regelmässig gegen Produktion läuft; Nutzerfeedback als Live-Signal; und ein Rollback-Pfad mit klarer Zuständigkeit. Re-Training braucht Auslöser, keinen Kalender.
Kernaussagen
- Vela et al. zeigen auch das Gegenteil der Intuition: Manche Modelle erfassen driftende Prozesse gut und altern kaum – Degradation ist also messbar und managebar, aber nicht vorhersagbar ohne Monitoring.
- Bei LLM-Features kommt eine neue Drift-Quelle dazu: stille Modell-Updates des Anbieters und schleichende Prompt-Änderungen im eigenen Team. Versionierung von Modell und Prompt pro Antwort ist deshalb Pflicht, nicht Kür.
- Drift frisst Vertrauen schneller als Funktionalität: Nutzer verzeihen ein Feature, das fehlt – aber nicht eines, das letzten Monat besser war. Deshalb gehört Drift ins Produkt-Review, nicht nur ins Ops-Dashboard.
Warum Modelle altern, ohne dass jemand etwas ändert
Klassische Software ist morgen so gut wie heute, solange niemand sie anfasst. KI-Features nicht: Sie sind auf einem Schnappschuss der Welt trainiert, und die Welt läuft weiter. Neue Produktnamen, verändertes Kundenverhalten, andere Ticket-Themen – die Eingaben wandern vom Trainingsstand weg (Data Drift), oder die Bedeutung dahinter kippt (Concept Drift): Was 2024 als «dringend» galt, ist 2026 Routine.
Wie verbreitet das ist, hat die Studie «Temporal quality degradation in AI models» (Vela et al., Scientific Reports 2022) quantifiziert: Über 128 Kombinationen aus vier Modelltypen und 32 Datensätzen aus Gesundheitswesen, Transport, Finanzen und Wetter zeigte sich in 91 Prozent der Fälle Qualitätszerfall über die Zeit – von den Autoren «AI Aging» genannt. Bemerkenswert ist der Rest: Einige Modelle altern kaum. Ob deins dazugehört, verrät dir kein Datenblatt – nur Messung.
Monitoring, das ein PM steuern kann
Eval-Set als Fixstern. Ein eingefrorenes Set repräsentativer Fälle, das wöchentlich gegen das Live-System läuft. Fällt der Score, hat sich nicht dein Geschmack geändert, sondern das System. Das ist die objektivste Drift-Messung – und sie kostet einen Nachmittag Setup.
Nutzersignale als Frühwarnung. Daumen runter, manuelle Korrekturen, Retry-Quoten, Abbrüche mitten im Flow. Einzeln verrauscht, im Trend unbestechlich – steigende Korrekturraten zeigen Drift oft Wochen vor dem Eval-Set, weil echte Nutzung breiter ist als jedes Testset.
Versionen pro Antwort. Modellversion, Prompt-Version, Datenstand – an jede Antwort geheftet. Ohne diese Spur kannst du einen Qualitätseinbruch nicht zuordnen: War es das stille Anbieter-Update, der Prompt-Tweak vom Dienstag oder die Welt?
Der Drift-Monitoring-Check für dein KI-Feature
Ohne Eval-Set und Schwellen erfährst du von Drift aus Support-Tickets. Starte mit dem Eval-Set – es ist die Hälfte der Miete.
Hake an, was für dein produktives KI-Feature bereits existiert – das Ergebnis zeigt, ob du Drift bemerken würdest, bevor es deine Kunden tun.
Vom Alarm zur Handlung: Schwellen, Rollback, Re-Training
Monitoring ohne Reaktionspfad ist Dekoration. Definiere zwei Schwellen pro Kernmetrik: eine gelbe («beobachten, Ursache klären») und eine rote («eingreifen»). Hinter Rot steht zuerst der Rollback – auf die letzte gute Modell-Prompt-Kombination, in Minuten statt Tagen. Erst danach kommt die Diagnose: Eval-Detail anschauen, Fälle clustern, Ursache der Drift bestimmen.
Re-Training und Prompt-Revision sind danach Produktentscheidungen mit Kosten und Risiko – behandle sie wie Features: Auslöser ist eine gerissene Schwelle plus Ursachenanalyse, nicht ein Quartalskalender. Und im regulierten Umfeld schliesst sich hier der Kreis zum EU AI Act: Logging, Versionierung und dokumentierte Eingriffe sind genau die Artefakte, die Hochrisiko-Systeme ohnehin vorweisen müssen.
Empfehlungen
- Friere ein Eval-Set ein – heute. 50 bis 200 repräsentative Fälle mit erwartetem Ergebnis, wöchentlich automatisch gegen Produktion. Ohne Fixstern ist jede Drift-Diskussion Geschmackssache.
- Logge Versionen pro Antwort. Modell, Prompt, Datenstand. Es ist eine Zeile Code beim Bauen und ein Wochenende Archäologie beim Nachrüsten.
- Baue den Rollback vor dem Re-Training. Die schnellste Antwort auf Drift ist die letzte gute Konfiguration. Re-Training ist die zweite Antwort – mit Auslöser, Budget und Eval-Beweis.
- Hole Drift ins Produkt-Review. Ein Chart, drei Zahlen: Eval-Score, Korrekturquote, offene Drift-Alarme. Was im Review steht, wird priorisiert – was im Ops-Dashboard versauert, nicht.
Einordnung & Grenzen
- Die 91 Prozent von Vela et al. stammen aus klassischen ML-Modellen (u.a. Random Forest, neuronale Netze) auf tabellarischen Datensätzen, nicht aus LLM-Produkten. Die Mechanik – Welt driftet, Qualität fällt – überträgt sich; die konkrete Rate ist kontextabhängig.
- Nutzerfeedback ist ein verzerrtes Signal: Unzufriedene klicken eher als Zufriedene, und Power-User dominieren. Nutze Trends statt Absolutwerte und kombiniere immer mit dem Eval-Set.
Fazit
Ein KI-Feature ist nie fertig – es ist nur gerade gut. Wer Eval-Set, Versionslogging und Rollback in die Operate-Phase einbaut, bemerkt den leisen Zerfall vor den Kunden und macht aus Drift eine Wartungsaufgabe statt eines Vertrauensbruchs.
Passende Use Cases aus der Bibliothek
Vom Beitrag direkt in die Praxis: Diese Use Cases setzen die Konzepte mit Teklens um.



Kein neuer Beitrag ohne dich.
Neue Artikel, neue interaktive Tools, neue Evidenz – zuerst in deiner Inbox. Und wenn du antwortest, antworten wir: Du schreibst direkt mit den Autoren, nicht mit einem No-Reply.
Kein Spam, keine Weitergabe, jederzeit abmeldbar.

