Metriken11. Juni 2026 · 6 Min. Lesezeit Inkl. interaktives Tool

KPIs für KI-Produkte: Prompt-Success schlägt MAU

Marc GasserSerial Founder · GTM & Marketing

PillarProduct Operations

Relevante Phasen

01Discover02Define03Build04OperateFast Lane

Klassische SaaS-Metriken messen, ob ein Feature benutzt wird – nicht, ob es hilft. Bei probabilistischen Features ist genau das die Lücke: Ein Assistent kann hohe Nutzung und schlechte Antworten gleichzeitig haben, bis das Vertrauen kippt.
Vier Ebenen tragen ein KI-Messsystem: Qualität (Akzeptanz- und Korrekturraten, Eval-Scores), Engagement (Wiederkehr, Tiefe), System (Latenz, Kosten pro Antwort) und Business (Zeitersparnis, Conversion, Support-Deflection). Eine Ebene allein lügt.
Die Akzeptanzrate – Anteil der KI-Ausgaben, die ohne Nachbearbeitung übernommen werden – ist die ehrlichste Einzelmetrik: Sie misst implizit, was Daumen-Buttons nur verzerrt einsammeln.

Kernaussagen

Explizites Feedback (Daumen hoch/runter) hat typischerweise einstellige Antwortquoten und starke Verzerrung – implizite Signale wie Übernehmen, Editieren, Retry und Verwerfen decken nahezu jede Interaktion ab.
Googles HEART-Framework (Rodden, Hutchinson, Fu) bleibt der beste Startpunkt für UX-Metriken – für KI ergänzt um die Qualitätsebene, die es 2010 noch nicht brauchte.
Kosten pro akzeptierter Antwort ist die Unit-Economics-Metrik der KI-Ära: Sie verbindet Inferenzkosten mit Qualität und entlarvt Features, die nur billig aussehen, weil niemand ihre Ausgaben nutzt.

Warum MAU bei KI-Features lügt

Ein Beispiel, das sich in vielen Teams wiederholt: Der neue KI-Assistent zeigt beeindruckende Nutzungskurven – und sechs Monate später bricht alles ein. Was passiert ist: Nutzer haben probiert, mittelmässige Antworten bekommen, still korrigiert und irgendwann aufgegeben. MAU hat die ganze Zeit «Erfolg» gemeldet, weil Neugier wie Nutzen aussieht. Bei deterministischen Features ist Nutzung ein brauchbarer Wert-Proxy. Bei probabilistischen ist sie nur die Eintrittskarte.

Der Grund liegt in der Natur der Sache: Eine Suchfunktion, die funktioniert, funktioniert für alle gleich. Ein LLM-Feature liefert jedem Nutzer eine andere Qualität – je nach Eingabe, Kontext und Tagesform des Modells. Deshalb braucht KI-Messung eine Ebene, die klassische Produktanalytik nie hatte: Wie gut war die Antwort? Und die beantwortet kein Dashboard von der Stange, sondern eine bewusst gebaute Feedback-Architektur.

Die vier Ebenen eines KI-Messsystems

Qualität. Akzeptanzrate (übernommen ohne Edit), Korrektur- und Retry-Quote, Eval-Score auf dem fixen Testset. Das ist die Ebene, die über Leben und Tod des Features entscheidet – und die einzige, die Drift früh sieht.

Engagement. Wiederkehr nach 7 und 30 Tagen, Nutzungstiefe pro Session, Anteil der Workflows mit KI-Beteiligung. Hier hilft HEART (Happiness, Engagement, Adoption, Retention, Task Success) als Raster – Retention ist bei KI das ehrlichste Engagement-Signal.

System. Latenz-Perzentile, Fehler- und Timeout-Raten, Kosten pro Antwort. Unsichtbar fürs Marketing, entscheidend fürs Überleben: Ein brillantes Feature mit acht Sekunden Latenz wird nicht adoptiert, eines mit explodierenden Token-Kosten nicht verlängert.

Business. Zeitersparnis pro Aufgabe, Support-Deflection, Conversion- und Upgrade-Wirkung. Die Ebene, die C-Level und Kunden sehen wollen – glaubwürdig nur, wenn die Qualitätsebene darunter stimmt.

Interaktives Tool

Health-Score: Wie gesund ist dein KI-Feature?

Anteil Antworten, die ohne Nachbearbeitung übernommen werden55%

Anteil Nutzer, die das Feature nach 30 Tagen noch verwenden40%

Anteil Antworten innerhalb deiner Ziel-Latenz80%

Dein Ergebnis54.2Solide Basis

Es funktioniert, aber Luft nach oben. Typischer nächster Schritt: Feedback-Schleife enger ziehen und die schwächste der drei Zahlen gezielt anheben.

Stelle die drei Regler auf deine echten Werte – der gewichtete Score zeigt, ob dein Feature liefert oder nur läuft.

Feedback-Schleifen bauen, die nicht lügen

Daumen-Buttons sind besser als nichts – aber wer nur sie misst, hört vor allem die Extreme: Begeisterte und Verärgerte klicken, die Mitte schweigt. Die belastbare Architektur setzt auf implizite Signale, die ohnehin anfallen: Wurde der Vorschlag übernommen? Wie stark editiert? Kam ein Retry? Wurde das Ergebnis verworfen? Diese Signale decken praktisch jede Interaktion ab und korrelieren direkt mit Nutzwert.

Wichtig ist die Verbindung zur Operate-Phase: Dieselben Signale, die den Health-Score füttern, sind dein Drift-Frühwarnsystem und dein Rohstoff für bessere Eval-Sets. Ein gut instrumentiertes KI-Feature misst sich selbst – der PM muss nur noch Schwellen setzen und auf Trends reagieren statt auf Anekdoten.

Empfehlungen

Mache die Akzeptanzrate zur Nordstern-Qualitätsmetrik. Übernommen ohne Nachbearbeitung – pro Feature, wöchentlich, mit Schwelle. Sie ist implizit, flächendeckend und schwer zu schönen.
Berichte immer alle vier Ebenen. Ein KI-Dashboard mit Qualität, Engagement, System und Business nebeneinander. Jede Ebene allein erzählt eine schöne, falsche Geschichte.
Instrumentiere implizit zuerst. Übernehmen, Editieren, Retry, Verwerfen – vor jedem Daumen-Button. Explizites Feedback ist die Ergänzung, nicht das Fundament.
Rechne Kosten pro akzeptierter Antwort. Inferenzkosten geteilt durch akzeptierte Ausgaben. Diese eine Zahl verbindet Modellqualität, Nutzwert und Marge – und gehört in jedes Quartals-Review.

Einordnung & Grenzen

Akzeptanzraten sind use-case-abhängig: Bei kreativen Aufgaben ist Editieren normal und kein Qualitätsmangel. Kalibriere Schwellen pro Feature-Typ statt eine Universalzahl zu jagen.
Der Health-Score im Widget ist ein Denkwerkzeug mit illustrativen Gewichten, kein Benchmark. Die richtige Gewichtung hängt von deinem Use Case ab – ein Support-Bot gewichtet anders als ein Code-Assistent.

KI-Features sterben leise – an Korrekturen, die niemand misst. Wer Qualität, Engagement, System und Business als vier Ebenen führt und die Akzeptanzrate zur Leitwährung macht, sieht Probleme Wochen vor dem Churn und steuert mit Evidenz statt Anekdoten.

Passende Use Cases aus der Bibliothek

Vom Beitrag direkt in die Praxis: Diese Use Cases setzen die Konzepte mit Teklens um.

01DiscoverBug-StatistikBug-Clustering zeigt, wo das Produkt wiederholt versagt – als Basis für gezielte Verbesserungen.Use Case ansehen 01DiscoverStakeholder-Reports & Summary-WidgetMacht aus Bugs, Ideen und Kundenzufriedenheit sendefertige visuelle Reports – auf einen Prompt.Use Case ansehen 01DiscoverCustomer InsightsClustert verstreute Kundensignale aus allen Quellen und macht daraus priorisierte Produkt-Opportunities.Use Case ansehen

Der Lab-Letter

Kein neuer Beitrag ohne dich.

Neue Artikel, neue interaktive Tools, neue Evidenz – zuerst in deiner Inbox. Und wenn du antwortest, antworten wir: Du schreibst direkt mit den Autoren, nicht mit einem No-Reply.

Kein Spam, keine Weitergabe, jederzeit abmeldbar.