Prototyping11. Juni 2026 · 6 Min. Lesezeit Inkl. interaktives Tool

Das MVP für KI: Teste den Zauberer, bevor du die Maschine baust

Marc GasserSerial Founder · GTM & Marketing

PillarProduct Execution

Relevante Phasen

01Discover02Define03Build04OperateFast Lane

Die MVP-Frage bei KI lautet nicht «können wir das Modell bauen?», sondern «ändert sich das Nutzerverhalten, wenn die Antwort da ist?». Diese Frage beantwortet ein Mensch hinter dem Vorhang oder ein Foundation-Modell – lange bevor Custom-ML Geld verbrennt.
Die Wizard-of-Oz-Methode geht auf John F. Kelleys IBM-Experimente von 1984 zurück: Nutzer interagieren mit einem scheinbar automatischen System, das ein Mensch bedient. Für GenAI-Produkte ist sie aktueller denn je – sie testet Wert und UX bei perfekter «Modellqualität».
Drei Stufen vor dem Custom-Modell: Wizard-of-Oz (Tage), Foundation-Modell mit Prompt und eigenen Daten (Tage bis Wochen), Fine-Tuning (Wochen). Jede Stufe beantwortet eine schärfere Frage zum Bruchteil der Kosten der nächsten.

Kernaussagen

Gartners Abbruchgründe für GenAI-Projekte – eskalierende Kosten und unklarer Geschäftswert – sind exakt die Risiken, die ein Wizard-of-Oz-Test für ein paar Hundert Franken eliminiert.
Der grösste Erkenntnisgewinn des simulierten MVP ist oft negativ und trotzdem Gold wert: Nutzer wollen die Antwort gar nicht, trauen ihr nicht oder bräuchten sie an anderer Stelle im Workflow.
Foundation-Modelle haben die Custom-ML-Schwelle drastisch verschoben: Eigenes Training lohnt sich erst, wenn Prompting plus Retrieval auf echten Daten nachweislich an die Qualitätsgrenze stösst.

Die teuerste Art, sich zu irren

Der klassische KI-Projektverlauf in Unternehmen: sechs Monate Daten sammeln, Modell trainieren, integrieren – und dann stellt sich heraus, dass die Nutzer die Funktion zweimal probieren und nie wieder anfassen. Das Modell war gut. Die Hypothese war falsch. Genau diese Reihenfolge macht KI-Projekte so teuer: Die grösste Unsicherheit (will das jemand?) wird zuletzt getestet, die kleinste (kriegen wir ein Modell hin?) zuerst.

Das MVP-Denken dreht die Reihenfolge um. Eric Ries' Definition – das kleinste Experiment, das validiertes Lernen über Kunden erzeugt – passt auf KI besser als auf alles andere, weil die Simulation hier so billig ist: Eine «KI-Antwort» kann ein Mensch tippen. John F. Kelley hat das 1984 bei IBM vorgemacht, als er eine Spracherkennung testete, die es noch nicht gab – ein verstecktes Operator-Team lieferte die Antworten. Der Begriff dafür: Wizard of Oz.

Die drei Stufen vor dem eigenen Modell

Stufe 1: Wizard of Oz. Ein Mensch liefert die Antworten, das Interface tut automatisch. Testet in Tagen, ob das Ergebnis Verhalten ändert – bei perfekter Qualität. Wenn Nutzer schon den perfekten Output ignorieren, rettet kein Modell das Feature.

Stufe 2: Foundation-Modell. Ein LLM mit gutem Prompt und Retrieval auf deinen echten Daten. Testet, ob maschinelle Qualität nahe genug an den Zauberer herankommt – und liefert nebenbei das erste Eval-Set aus echten Interaktionen.

Stufe 3: Fine-Tuning und Custom-ML. Erst wenn Stufe 2 nachweislich an die Qualitätsgrenze stösst und der Business Case steht. Jetzt sind die Kosten gerechtfertigt – durch Daten aus echter Nutzung statt durch Folien.

Interaktives Tool

Wizard-of-Oz-Readiness: Kannst du es faken, bevor du es baust?

Die Kernfrage ist formuliert: Welches Nutzerverhalten wollen wir beweisen?
Ein Mensch könnte die KI-Antwort hinter den Kulissen liefern (Wizard-of-Oz-tauglich).
Ein Foundation-Modell mit gutem Prompt deckt den Use Case grob ab – ohne eigenes Training.
5 bis 10 echte Nutzer sind für den Test erreichbar.
Die Erfolgsmetrik des Tests ist definiert (Nutzung, Zahlungsbereitschaft, Zeitgewinn).
Das Test-Setup ist ehrlich gegenüber Compliance: keine echten Personendaten im Experiment.

Dein Ergebnis0 von 6Zu früh

Ohne Kernfrage und Erfolgsmetrik misst dein MVP nichts. Formuliere zuerst die Hypothese – das Bauen ist der einfache Teil.

Hake an, was für dein KI-Vorhaben gilt – das Ergebnis zeigt, ob du mit einem simulierten MVP starten kannst oder noch Vorarbeit fehlt.

Wie du fakst, ohne zu täuschen

Wizard-of-Oz heisst simulierte Automatik, nicht simulierte Ethik. Drei Regeln halten den Test sauber: Erstens, keine echten Personendaten im Experiment – der Operator hinter dem Vorhang sieht, was Nutzer eingeben. Zweitens, Antwortzeiten realistisch halten, sonst validierst du eine UX, die es später nie gibt. Drittens, nach dem Test aufklären, besonders bei B2B-Pilotkunden: «Das war ein Konzepttest» ist in DACH ein Vertrauensbeweis, kein Gesichtsverlust.

Und definiere vorab, was «bestanden» heisst: Wiederkehrende Nutzung in Woche zwei? Zahlungsbereitschaft im Gespräch? Eine konkrete Zeitersparnis? Ein MVP ohne Erfolgsmetrik produziert Anekdoten. Mit Metrik produziert es eine Entscheidung – bauen, umbauen oder begraben.

Empfehlungen

Stelle die Verhaltesfrage zuerst. Formuliere vor jedem KI-Invest: Welches Nutzerverhalten muss sich ändern, damit sich das lohnt? Dann teste genau das – mit dem billigsten Mittel.
Klettere die Stufen in Reihenfolge. Wizard-of-Oz vor Foundation-Modell vor Fine-Tuning. Jede übersprungene Stufe ist ungetestetes Risiko, das du mit Engineering-Monaten bezahlst.
Sammle das Eval-Set im MVP. Jede echte Interaktion aus Stufe 1 und 2 ist später Gold: Sie wird zum Testset, an dem du Modellqualität misst, bevor etwas live geht.
Begrabe ohne Trauer. Ein MVP, das die Hypothese widerlegt, hat seinen Job gemacht. Dokumentiere das Learning im Backlog – es ist der billigste Schutz vor der Wiederholung in zwei Jahren.

Einordnung & Grenzen

Wizard-of-Oz skaliert nicht und verfälscht bei langen, fachlich tiefen Antworten: Wo der Operator selbst Expertenwissen braucht, testest du den Experten, nicht das Produkt. Dann lieber direkt Stufe 2 mit engem Scope.
«Foundation-Modell zuerst» gilt für typische Sprach- und Wissens-Use-Cases. Für hochspezialisierte Domänen (Sensorik, Bildanalyse in der Medizin) kann Custom-ML früher nötig sein – dann gehört das Experiment in die Forschungsspur der Roadmap.

Das beste KI-MVP enthält oft gar keine KI: Es beweist den Wert, bevor die Maschine existiert. Wer den Zauberer testet, bevor er die Maschine baut, investiert nur noch in Features, deren Nachfrage bereits belegt ist.

Passende Use Cases aus der Bibliothek

Vom Beitrag direkt in die Praxis: Diese Use Cases setzen die Konzepte mit Teklens um.

FLFast LaneQuick-DevVerdichtet eine unklare Kurz-Anfrage in ein klares Ziel und liefert direkt funktionierenden Code.Use Case ansehen 02DefineSpec → Epic mit Code-KontextWandelt eine Spec in ein umsetzungsreifes Epic mit Akzeptanzkriterien aus echten Code-Pfaden.Use Case ansehen 02DefineRequirement-Feasibility-CheckPrüft jede Anforderung gegen API-, Schema- und Test-Surface der Codebasis – bevor gebaut wird.Use Case ansehen

Der Lab-Letter

Kein neuer Beitrag ohne dich.

Neue Artikel, neue interaktive Tools, neue Evidenz – zuerst in deiner Inbox. Und wenn du antwortest, antworten wir: Du schreibst direkt mit den Autoren, nicht mit einem No-Reply.

Kein Spam, keine Weitergabe, jederzeit abmeldbar.