MLOps & Risiko11. Juni 2026 · 6 Min. Lesezeit Inkl. interaktives Tool

Model Drift: Wenn dein Produkt leise schlechter wird

Marc GasserSerial Founder · GTM & Marketing

PillarProduct Execution

Relevante Phasen

01Discover02Define03Build04OperateFast Lane

Die Studie «Temporal quality degradation in AI models» (Vela et al., Scientific Reports 2022; Harvard, MIT, Universität Monterrey, Cambridge) fand bei 91 Prozent von 128 Modell-Datensatz-Paaren messbaren Qualitätszerfall über die Zeit. Degradation ist der Normalfall, nicht die Ausnahme.
Drift ist ein Produktproblem, kein reines ML-Problem: Die Welt ändert sich (Daten-Drift), die Bedeutung ändert sich (Concept Drift), und bei zugekauften LLMs ändert der Anbieter das Modell unter deinen Füssen. Der PM braucht Signale, Schwellen und einen Reaktionspfad.
Das Minimum-Setup hat drei Teile: ein fixes Eval-Set, das regelmässig gegen Produktion läuft; Nutzerfeedback als Live-Signal; und ein Rollback-Pfad mit klarer Zuständigkeit. Re-Training braucht Auslöser, keinen Kalender.

Kernaussagen

Vela et al. zeigen auch das Gegenteil der Intuition: Manche Modelle erfassen driftende Prozesse gut und altern kaum – Degradation ist also messbar und managebar, aber nicht vorhersagbar ohne Monitoring.
Bei LLM-Features kommt eine neue Drift-Quelle dazu: stille Modell-Updates des Anbieters und schleichende Prompt-Änderungen im eigenen Team. Versionierung von Modell und Prompt pro Antwort ist deshalb Pflicht, nicht Kür.
Drift frisst Vertrauen schneller als Funktionalität: Nutzer verzeihen ein Feature, das fehlt – aber nicht eines, das letzten Monat besser war. Deshalb gehört Drift ins Produkt-Review, nicht nur ins Ops-Dashboard.

Warum Modelle altern, ohne dass jemand etwas ändert

Klassische Software ist morgen so gut wie heute, solange niemand sie anfasst. KI-Features nicht: Sie sind auf einem Schnappschuss der Welt trainiert, und die Welt läuft weiter. Neue Produktnamen, verändertes Kundenverhalten, andere Ticket-Themen – die Eingaben wandern vom Trainingsstand weg (Data Drift), oder die Bedeutung dahinter kippt (Concept Drift): Was 2024 als «dringend» galt, ist 2026 Routine.

Wie verbreitet das ist, hat die Studie «Temporal quality degradation in AI models» (Vela et al., Scientific Reports 2022) quantifiziert: Über 128 Kombinationen aus vier Modelltypen und 32 Datensätzen aus Gesundheitswesen, Transport, Finanzen und Wetter zeigte sich in 91 Prozent der Fälle Qualitätszerfall über die Zeit – von den Autoren «AI Aging» genannt. Bemerkenswert ist der Rest: Einige Modelle altern kaum. Ob deins dazugehört, verrät dir kein Datenblatt – nur Messung.

Monitoring, das ein PM steuern kann

Eval-Set als Fixstern. Ein eingefrorenes Set repräsentativer Fälle, das wöchentlich gegen das Live-System läuft. Fällt der Score, hat sich nicht dein Geschmack geändert, sondern das System. Das ist die objektivste Drift-Messung – und sie kostet einen Nachmittag Setup.

Nutzersignale als Frühwarnung. Daumen runter, manuelle Korrekturen, Retry-Quoten, Abbrüche mitten im Flow. Einzeln verrauscht, im Trend unbestechlich – steigende Korrekturraten zeigen Drift oft Wochen vor dem Eval-Set, weil echte Nutzung breiter ist als jedes Testset.

Versionen pro Antwort. Modellversion, Prompt-Version, Datenstand – an jede Antwort geheftet. Ohne diese Spur kannst du einen Qualitätseinbruch nicht zuordnen: War es das stille Anbieter-Update, der Prompt-Tweak vom Dienstag oder die Welt?

Interaktives Tool

Der Drift-Monitoring-Check für dein KI-Feature

Ein fixes Eval-Set läuft regelmässig gegen das produktive System.
Nutzerfeedback (Daumen, Korrekturen, Retries) wird als Qualitätssignal erfasst.
Es gibt definierte Schwellen, ab denen ein Alarm ausgelöst wird.
Modellversion, Prompt-Version und Datenstand sind pro Antwort geloggt.
Ein Rollback auf die letzte gute Konfiguration ist in Minuten möglich.
Zuständigkeit ist geklärt: Jemand reagiert auf Drift-Alarme.
Re-Training oder Prompt-Revision haben einen definierten Auslöser, nicht nur einen Kalender.

Dein Ergebnis0 von 7Kunden sind dein Monitoring

Ohne Eval-Set und Schwellen erfährst du von Drift aus Support-Tickets. Starte mit dem Eval-Set – es ist die Hälfte der Miete.

Hake an, was für dein produktives KI-Feature bereits existiert – das Ergebnis zeigt, ob du Drift bemerken würdest, bevor es deine Kunden tun.

Vom Alarm zur Handlung: Schwellen, Rollback, Re-Training

Monitoring ohne Reaktionspfad ist Dekoration. Definiere zwei Schwellen pro Kernmetrik: eine gelbe («beobachten, Ursache klären») und eine rote («eingreifen»). Hinter Rot steht zuerst der Rollback – auf die letzte gute Modell-Prompt-Kombination, in Minuten statt Tagen. Erst danach kommt die Diagnose: Eval-Detail anschauen, Fälle clustern, Ursache der Drift bestimmen.

Re-Training und Prompt-Revision sind danach Produktentscheidungen mit Kosten und Risiko – behandle sie wie Features: Auslöser ist eine gerissene Schwelle plus Ursachenanalyse, nicht ein Quartalskalender. Und im regulierten Umfeld schliesst sich hier der Kreis zum EU AI Act: Logging, Versionierung und dokumentierte Eingriffe sind genau die Artefakte, die Hochrisiko-Systeme ohnehin vorweisen müssen.

Empfehlungen

Friere ein Eval-Set ein – heute. 50 bis 200 repräsentative Fälle mit erwartetem Ergebnis, wöchentlich automatisch gegen Produktion. Ohne Fixstern ist jede Drift-Diskussion Geschmackssache.
Logge Versionen pro Antwort. Modell, Prompt, Datenstand. Es ist eine Zeile Code beim Bauen und ein Wochenende Archäologie beim Nachrüsten.
Baue den Rollback vor dem Re-Training. Die schnellste Antwort auf Drift ist die letzte gute Konfiguration. Re-Training ist die zweite Antwort – mit Auslöser, Budget und Eval-Beweis.
Hole Drift ins Produkt-Review. Ein Chart, drei Zahlen: Eval-Score, Korrekturquote, offene Drift-Alarme. Was im Review steht, wird priorisiert – was im Ops-Dashboard versauert, nicht.

Einordnung & Grenzen

Die 91 Prozent von Vela et al. stammen aus klassischen ML-Modellen (u.a. Random Forest, neuronale Netze) auf tabellarischen Datensätzen, nicht aus LLM-Produkten. Die Mechanik – Welt driftet, Qualität fällt – überträgt sich; die konkrete Rate ist kontextabhängig.
Nutzerfeedback ist ein verzerrtes Signal: Unzufriedene klicken eher als Zufriedene, und Power-User dominieren. Nutze Trends statt Absolutwerte und kombiniere immer mit dem Eval-Set.

Ein KI-Feature ist nie fertig – es ist nur gerade gut. Wer Eval-Set, Versionslogging und Rollback in die Operate-Phase einbaut, bemerkt den leisen Zerfall vor den Kunden und macht aus Drift eine Wartungsaufgabe statt eines Vertrauensbruchs.

Passende Use Cases aus der Bibliothek

Vom Beitrag direkt in die Praxis: Diese Use Cases setzen die Konzepte mit Teklens um.

04OperateIncident-Clustering & Pattern-ReportClustert aktuelle Incidents zu Mustern – wiederkehrende Probleme werden adressiert statt immer neu gelöst.Use Case ansehen 04OperateOps-AssistentTriagiert Support-Issues mit code-verankerter Diagnose und entwirft konkrete Lösungsvorschläge.Use Case ansehen 04OperateIncident → CommitVerknüpft einen Incident mit den wahrscheinlich verursachenden Commits, PRs und dem zuständigen Owner.Use Case ansehen 01DiscoverBug-StatistikBug-Clustering zeigt, wo das Produkt wiederholt versagt – als Basis für gezielte Verbesserungen.Use Case ansehen

Der Lab-Letter

Kein neuer Beitrag ohne dich.

Neue Artikel, neue interaktive Tools, neue Evidenz – zuerst in deiner Inbox. Und wenn du antwortest, antworten wir: Du schreibst direkt mit den Autoren, nicht mit einem No-Reply.

Kein Spam, keine Weitergabe, jederzeit abmeldbar.