Das MVP für KI: Teste den Zauberer, bevor du die Maschine baust
Marc GasserSerial Founder · GTM & MarketingVerbindet AI mit Revenue-Operations und baut autonome GTM-Systeme für vorhersehbares Wachstum.TL;DR
- Die MVP-Frage bei KI lautet nicht «können wir das Modell bauen?», sondern «ändert sich das Nutzerverhalten, wenn die Antwort da ist?». Diese Frage beantwortet ein Mensch hinter dem Vorhang oder ein Foundation-Modell – lange bevor Custom-ML Geld verbrennt.
- Die Wizard-of-Oz-Methode geht auf John F. Kelleys IBM-Experimente von 1984 zurück: Nutzer interagieren mit einem scheinbar automatischen System, das ein Mensch bedient. Für GenAI-Produkte ist sie aktueller denn je – sie testet Wert und UX bei perfekter «Modellqualität».
- Drei Stufen vor dem Custom-Modell: Wizard-of-Oz (Tage), Foundation-Modell mit Prompt und eigenen Daten (Tage bis Wochen), Fine-Tuning (Wochen). Jede Stufe beantwortet eine schärfere Frage zum Bruchteil der Kosten der nächsten.
Kernaussagen
- Gartners Abbruchgründe für GenAI-Projekte – eskalierende Kosten und unklarer Geschäftswert – sind exakt die Risiken, die ein Wizard-of-Oz-Test für ein paar Hundert Franken eliminiert.
- Der grösste Erkenntnisgewinn des simulierten MVP ist oft negativ und trotzdem Gold wert: Nutzer wollen die Antwort gar nicht, trauen ihr nicht oder bräuchten sie an anderer Stelle im Workflow.
- Foundation-Modelle haben die Custom-ML-Schwelle drastisch verschoben: Eigenes Training lohnt sich erst, wenn Prompting plus Retrieval auf echten Daten nachweislich an die Qualitätsgrenze stösst.
Die teuerste Art, sich zu irren
Der klassische KI-Projektverlauf in Unternehmen: sechs Monate Daten sammeln, Modell trainieren, integrieren – und dann stellt sich heraus, dass die Nutzer die Funktion zweimal probieren und nie wieder anfassen. Das Modell war gut. Die Hypothese war falsch. Genau diese Reihenfolge macht KI-Projekte so teuer: Die grösste Unsicherheit (will das jemand?) wird zuletzt getestet, die kleinste (kriegen wir ein Modell hin?) zuerst.
Das MVP-Denken dreht die Reihenfolge um. Eric Ries' Definition – das kleinste Experiment, das validiertes Lernen über Kunden erzeugt – passt auf KI besser als auf alles andere, weil die Simulation hier so billig ist: Eine «KI-Antwort» kann ein Mensch tippen. John F. Kelley hat das 1984 bei IBM vorgemacht, als er eine Spracherkennung testete, die es noch nicht gab – ein verstecktes Operator-Team lieferte die Antworten. Der Begriff dafür: Wizard of Oz.
Die drei Stufen vor dem eigenen Modell
Stufe 1: Wizard of Oz. Ein Mensch liefert die Antworten, das Interface tut automatisch. Testet in Tagen, ob das Ergebnis Verhalten ändert – bei perfekter Qualität. Wenn Nutzer schon den perfekten Output ignorieren, rettet kein Modell das Feature.
Stufe 2: Foundation-Modell. Ein LLM mit gutem Prompt und Retrieval auf deinen echten Daten. Testet, ob maschinelle Qualität nahe genug an den Zauberer herankommt – und liefert nebenbei das erste Eval-Set aus echten Interaktionen.
Stufe 3: Fine-Tuning und Custom-ML. Erst wenn Stufe 2 nachweislich an die Qualitätsgrenze stösst und der Business Case steht. Jetzt sind die Kosten gerechtfertigt – durch Daten aus echter Nutzung statt durch Folien.
Wizard-of-Oz-Readiness: Kannst du es faken, bevor du es baust?
Ohne Kernfrage und Erfolgsmetrik misst dein MVP nichts. Formuliere zuerst die Hypothese – das Bauen ist der einfache Teil.
Hake an, was für dein KI-Vorhaben gilt – das Ergebnis zeigt, ob du mit einem simulierten MVP starten kannst oder noch Vorarbeit fehlt.
Wie du fakst, ohne zu täuschen
Wizard-of-Oz heisst simulierte Automatik, nicht simulierte Ethik. Drei Regeln halten den Test sauber: Erstens, keine echten Personendaten im Experiment – der Operator hinter dem Vorhang sieht, was Nutzer eingeben. Zweitens, Antwortzeiten realistisch halten, sonst validierst du eine UX, die es später nie gibt. Drittens, nach dem Test aufklären, besonders bei B2B-Pilotkunden: «Das war ein Konzepttest» ist in DACH ein Vertrauensbeweis, kein Gesichtsverlust.
Und definiere vorab, was «bestanden» heisst: Wiederkehrende Nutzung in Woche zwei? Zahlungsbereitschaft im Gespräch? Eine konkrete Zeitersparnis? Ein MVP ohne Erfolgsmetrik produziert Anekdoten. Mit Metrik produziert es eine Entscheidung – bauen, umbauen oder begraben.
Empfehlungen
- Stelle die Verhaltesfrage zuerst. Formuliere vor jedem KI-Invest: Welches Nutzerverhalten muss sich ändern, damit sich das lohnt? Dann teste genau das – mit dem billigsten Mittel.
- Klettere die Stufen in Reihenfolge. Wizard-of-Oz vor Foundation-Modell vor Fine-Tuning. Jede übersprungene Stufe ist ungetestetes Risiko, das du mit Engineering-Monaten bezahlst.
- Sammle das Eval-Set im MVP. Jede echte Interaktion aus Stufe 1 und 2 ist später Gold: Sie wird zum Testset, an dem du Modellqualität misst, bevor etwas live geht.
- Begrabe ohne Trauer. Ein MVP, das die Hypothese widerlegt, hat seinen Job gemacht. Dokumentiere das Learning im Backlog – es ist der billigste Schutz vor der Wiederholung in zwei Jahren.
Einordnung & Grenzen
- Wizard-of-Oz skaliert nicht und verfälscht bei langen, fachlich tiefen Antworten: Wo der Operator selbst Expertenwissen braucht, testest du den Experten, nicht das Produkt. Dann lieber direkt Stufe 2 mit engem Scope.
- «Foundation-Modell zuerst» gilt für typische Sprach- und Wissens-Use-Cases. Für hochspezialisierte Domänen (Sensorik, Bildanalyse in der Medizin) kann Custom-ML früher nötig sein – dann gehört das Experiment in die Forschungsspur der Roadmap.
Fazit
Das beste KI-MVP enthält oft gar keine KI: Es beweist den Wert, bevor die Maschine existiert. Wer den Zauberer testet, bevor er die Maschine baut, investiert nur noch in Features, deren Nachfrage bereits belegt ist.
Passende Use Cases aus der Bibliothek
Vom Beitrag direkt in die Praxis: Diese Use Cases setzen die Konzepte mit Teklens um.



Kein neuer Beitrag ohne dich.
Neue Artikel, neue interaktive Tools, neue Evidenz – zuerst in deiner Inbox. Und wenn du antwortest, antworten wir: Du schreibst direkt mit den Autoren, nicht mit einem No-Reply.
Kein Spam, keine Weitergabe, jederzeit abmeldbar.

