Agile für KI: Sprints, die Modell-Training aushalten
Marc GasserSerial Founder · GTM & MarketingVerbindet AI mit Revenue-Operations und baut autonome GTM-Systeme für vorhersehbares Wachstum.TL;DR
- Der Kernkonflikt: Scrum plant Lieferungen, ML produziert Erkenntnisse. Ein Modell kann nach zwei Wochen Arbeit schlechter sein als vorher – das ist kein gerissener Sprint, sondern ein Experiment-Ergebnis. Prozesse müssen beides tragen.
- Die Lösung ist keine neue Methode, sondern eine saubere Trennung: deterministische Produktarbeit in Stories mit Commitment, Modell-Arbeit in timeboxten Spikes mit Lernziel, Qualitätsschwelle und Abbruchkriterium.
- Prozessmodelle wie CRISP-ML(Q) und Continuous Delivery for Machine Learning (CD4ML, Sato/Wider/Windheuser) liefern die fehlenden Phasen – Daten-Verständnis, Evaluation, Monitoring – die klassisches Scrum schlicht nicht kennt.
Kernaussagen
- Teams, die Modell-Arbeit als Stories mit Storypoints schätzen, schätzen in Wahrheit Forschungsdauer – und produzieren systematisch gerissene Commitments und Vertrauensverlust beim Stakeholder.
- Die Definition of Done ist der wirksamste Hebel: «fertig» heisst bei KI-Features «erreicht die Qualitätsschwelle auf dem Eval-Set», nicht «Code gemergt, Demo lief».
- Der DORA-Befund aus dem KI-Kontext gilt auch hier: Geschwindigkeit ohne Disziplin senkt Stabilität. Kleine Change-Sets und Evaluation vor dem Merge sind die Antwort, nicht längere Sprints.
Wo Scrum bei Modell-Arbeit bricht
Scrum funktioniert, weil Software-Aufwand grob planbar ist: Wer die Story versteht, kann sie schätzen. Modell-Arbeit bricht diese Kopplung. Ob ein Fine-Tuning die Qualitätsschwelle erreicht, ob ein RAG-Setup auf deinen Daten präzise genug antwortet – das weisst du erst nach dem Versuch. Zwei Wochen Arbeit können null sichtbaren Fortschritt liefern und trotzdem wertvoll sein, weil sie eine Sackgasse ausschliessen.
Prozessmodelle aus der ML-Welt füllen die Lücke, die Scrum offenlässt: CRISP-ML(Q) (Studer et al.) beschreibt den Lebenszyklus von Geschäftsverständnis über Daten-Aufbereitung bis Monitoring – mit Qualitätssicherung in jeder Phase. Continuous Delivery for Machine Learning (CD4ML, beschrieben von Sato, Wider und Windheuser bei martinfowler.com) überträgt CD-Prinzipien auf Modelle: kleine Schritte, automatisierte Pipelines, reproduzierbare Releases. Keines ersetzt dein agiles Framework – sie benennen die Arbeit, die dein Framework bisher unsichtbar gemacht hat.
Spikes statt Stories: Wie du Lernen und Liefern trennst
Modell-Arbeit als Spike. Timebox statt Schätzung, Lernziel statt Akzeptanzkriterien: «In fünf Tagen wissen wir, ob Ansatz A die 90-Prozent-Schwelle auf dem Eval-Set erreicht.» Der Spike ist erfolgreich, wenn er die Frage beantwortet – egal in welche Richtung.
Produktarbeit als Story. UI, Datenanbindung, Logging, Guardrails, Fallbacks – alles um das Modell herum ist deterministisch und gehört in normale Stories mit normalem Commitment. So liefert der Sprint sichtbaren Fortschritt, selbst wenn das Experiment scheitert.
Daten als eigene Items. Daten beschaffen, bereinigen, labeln und ein Eval-Set bauen ist oft die Hälfte des Aufwands – CRISP-ML(Q) widmet ihr eigene Phasen. Wer sie in «Modell bauen» versteckt, wundert sich über Faktor-zwei-Überraschungen.
Der ML-Readiness-Check für dein Sprint-Setup
Dein Prozess behandelt Experimente wie Lieferungen – das produziert gerissene Sprints und frustrierte Teams. Starte mit Spikes und Qualitätsschwellen.
Hake an, was in deinem Delivery-Prozess schon gilt – das Ergebnis zeigt, ob dein Setup Modell-Arbeit aushält oder sie zerreibt.
Die Definition of Done, die KI-Features brauchen
Bei deterministischem Code beweisen Tests die Korrektheit. Bei probabilistischen Features beweisen sie nur den Rahmen – die eigentliche Frage ist: Wie gut ist es auf repräsentativen Fällen? Deshalb gehört in die Definition of Done ein Eval-Schritt: definiertes Testset, definierte Metrik, definierte Schwelle. Ein Review, das nur eine Demo auf drei handverlesenen Beispielen zeigt, prüft Charisma, nicht Qualität.
Und weil Modelle sich mit Daten, Prompts und Modellversionen verändern, ist die Eval-Pipeline kein Einmal-Artefakt, sondern Teil der CI – das ist der Kern von CD4ML. Jede Änderung am Prompt läuft gegen dasselbe Eval-Set wie jede Änderung am Code gegen die Tests. So bleibt «besser geworden» eine Messung statt einer Meinung, Sprint für Sprint.
Empfehlungen
- Trenne den Backlog in Liefern und Lernen. Stories mit Commitment für alles Deterministische, Spikes mit Timebox, Lernziel und Abbruchkriterium für Modell-Arbeit. Mische sie nie im selben Commitment.
- Definiere «gut genug» vor dem Spike. Qualitätsschwelle und Eval-Set stehen, bevor jemand trainiert oder promptet. Sonst verschiebt sich das Ziel mit jedem Ergebnis.
- Erweitere die Definition of Done. Kein KI-Feature ist fertig ohne bestandene Evaluation und aktives Monitoring-Signal. «Demo lief» ist kein Done-Kriterium.
- Mache Lernen sichtbar. Berichte im Review beide Währungen: gelieferter Produktfortschritt und beantwortete Forschungsfragen. Stakeholder akzeptieren negative Experiment-Ergebnisse – aber keine unsichtbaren.
Einordnung & Grenzen
- CRISP-ML(Q) und CD4ML sind Prozessmodelle, keine Garantien – sie strukturieren Arbeit, deren Ausgang offen bleibt. Übernimm die Phasen, nicht die Bürokratie: Ein Zwei-Pizza-Team braucht die Disziplin, nicht das Formularwesen.
- Mit Foundation-Modellen und Prompting statt eigenem Training schrumpft der Experiment-Anteil oft deutlich – dann reicht manchmal eine schlanke Eval-Pipeline. Prüfe zuerst, wie viel «Forschung» dein Feature wirklich enthält.
Fazit
Agile stirbt nicht an KI – es stirbt an der Vermischung von Liefern und Lernen. Wer Spikes, Qualitätsschwellen und Eval-Pipelines in den Zyklus einbaut, bekommt beides: verlässliche Delivery und ehrliche Experimente.
Passende Use Cases aus der Bibliothek
Vom Beitrag direkt in die Praxis: Diese Use Cases setzen die Konzepte mit Teklens um.



Kein neuer Beitrag ohne dich.
Neue Artikel, neue interaktive Tools, neue Evidenz – zuerst in deiner Inbox. Und wenn du antwortest, antworten wir: Du schreibst direkt mit den Autoren, nicht mit einem No-Reply.
Kein Spam, keine Weitergabe, jederzeit abmeldbar.

