Das LLM Industry Playbook - Warum Modelle schlechter werden (müssen)

Eine wirtschaftswissenschaftliche Analyse des wiederkehrenden Phänomens der wahrgenommenen Modell-Degradation bei großen Sprachmodellen und den psychologischen sowie ökonomischen Faktoren dahinter.

Veröffentlicht am 03.10.2025. 1165 Wörter. Lesezeit: 6 Minuten.

Der Zyklus ist mittlerweile so vorhersagbar, dass er fast schon langweilig wird: Ein neues Language Model wird veröffentlicht, die ersten Wochen sind euphorisch - "Dieses Modell ist unglaublich!" - dann folgen die unvermeidlichen Posts: "Wurde es gerade verschlechtert?" Die Community spaltet sich in zwei Lager: "Skill Issue, lern zu prompten" gegen "Nein, es ist objektiv schlechter geworden". Was steckt wirklich hinter diesem Phänomen?

Die psychologische Komponente: Der Nutzer als Variable

Bevor wir uns den technischen und wirtschaftlichen Aspekten widmen, müssen wir einen oft übersehenen Faktor betrachten: den Nutzer selbst. Gewöhnung ist ein mächtiger psychologischer Mechanismus. Was zunächst als revolutionär empfunden wird, normalisiert sich schnell. Diese Hedonic Adaptation betrifft auch unseren Umgang mit Artificial Intelligence-Systemen.

Ein besonders relevantes Phänomen zeigt sich bei Entwicklern, die Coding-Tools nutzen: Mit wachsender Vertrautheit schleicht sich eine gewisse Nachlässigkeit ein. Anfangs formuliert man Prompt Engineering sorgfältig, gibt detaillierte Kontext-Informationen und strukturiert Anfragen methodisch. Funktioniert das System gut, wird man "lazy" - die Prompts werden kürzer, unspezifischer, der Kontext wird vernachlässigt.

Parallel dazu wächst häufig die Komplexität der Projekte. Was als kleines Experiment beginnt, entwickelt sich zu einer größeren Codebase. Während das Projekt wächst, wären eigentlich bessere Organisation, stärkeres "Guard Railing" und präzisere Instruktionen notwendig. Stattdessen behält man die anfangs funktionierenden, aber für die neue Größenordnung inadäquaten Arbeitsweisen bei.

Diese Kombination aus psychologischer Gewöhnung und steigender Anforderung bei gleichzeitig nachlassender Sorgfalt führt zwangsläufig zu schlechteren Ergebnissen - ohne dass sich am Modell selbst etwas geändert haben muss.

Das dokumentierte Muster: Vier Phasen der Degradation

Dennoch zeigen anekdotische Berichte aus der Nutzergemeinschaft ein konsistentes Muster über verschiedene Anbieter hinweg. Diese Evidenz ist methodisch limitiert - individuelle Erfahrungen können durch die oben beschriebenen psychologischen Faktoren verzerrt sein - aber das wiederholte Auftreten ähnlicher Berichte ist dennoch bemerkenswert.

Das typische Muster folgt vier Phasen:

Launch/Honeymoon: Lange, durchdachte Antworten, kreative Problemlösung, weniger Ablehnungen. Die Community ist begeistert und teilt Screenshots. "Das ändert alles!"

Settling In: Immer noch gut, aber etwas stimmt nicht. Antworten werden kürzer, mehr Sicherheitsvorbehalte, offensichtlicher Kontext wird übersehen. Erste Nutzer bemerken es, andere sagen, man bilde es sich ein.

The Drift: Unbestreitbar anders. Flacher, korporativer Ton, Templates-ähnliche Ausgaben. Man muss härter prompten für das, was früher natürlich floss. Tricks und Workarounds werden entwickelt.

Steady State: Es "funktioniert", aber die Magie ist weg. Nutzer adaptieren mit aufwendigen Prompt-Ritualen oder geben auf und warten auf das nächste Modell.

Dieses Muster ließ sich bei GPT-4 (Launch März 2023, Beschwerden ab Mai), Claude 2 (Juli 2023, Beschwerden nach 6 Wochen) und anderen beobachten. Dass diese Berichte allein kein Beweis sind, ändert nichts an ihrer Konsistenz.

Das Geschäftsmodell: Die ökonomische Realität

Um das Phänomen zu verstehen, müssen wir einen Blick auf die wirtschaftlichen Grundlagen werfen. Die Zahlen sind ernüchternd:

Die Subventionswette

LLM-Anbieter stehen vor einem fundamentalen Problem der Unit Economics. Während OpenAI 2024 etwa $3,6-5 Milliarden Umsatz erzielte, verbrannten sie gleichzeitig über $5 Milliarden. Anthropic erreichte eine Annualized Revenue Rate von $1-4 Milliarden, verliert aber schätzungsweise $2 Milliarden pro Jahr.⁵⁶⁵⁷

Die Bruttomargen sind alarmierend niedrig: OpenAI kommt auf geschätzte 55-75%, Anthropic auf nur 38%.⁵⁸ Diese Zahlen offenbaren das zentrale Dilemma der Branche.

Betrachten wir die Preisstruktur für Endkunden: Claude Pro kostet $17 monatlich für etwa 6.500 Nachrichten, Cursor Pro $20 für 500 "schnelle" Anfragen, ChatGPT Plus $20 für Millionen von Nutzern.⁵⁹⁶⁰ Diese Flat-Rate-Modelle sind faktisch eine Wette auf die Zukunft.

Die Token-Preis-Regression

Ein Blick auf die Token-Preisentwicklung zeigt die Dynamik: GPT-4 kostete bei Launch im März 2023 $36 pro Million Tokens, heute kostet GPT-4o etwa $4 pro Million (Blended Rate) - ein Preisverfall von 79% pro Jahr.⁶¹ Claude 4 Sonnet liegt bei $3 pro Million Input-Tokens, Claude 4 Opus bei $15.⁶²

Diese rasante Deflation ist notwendig, aber nicht ausreichend. Analysen zeigen, dass Power-User von Coding-Tools wie Claude Code bis zu 4x mehr Tokens verbrauchen als vergleichbare Tools wie Cursor.⁶³ Ein intensiver Nutzer könnte monatlich API-Kosten von $100-500 verursachen - bei einem Abonnement von $17-20.

Die Kreuzelastizität

Das Geschäftsmodell basiert auf Kreuzelastizität zwischen verschiedenen Nutzersegmenten:

Consumer-Abonnements fungieren als Loss-Leader zur Marktdurchdringung
Enterprise-Verträge subventionieren die Konsumentenpreise
API-Nutzer zahlen näher an den realen Kosten
Gelegenheitsnutzer querfinanzieren Power-User

Diese Struktur erklärt, warum Anthropic mit nur 5% der ChatGPT-Nutzerbasis 40% von OpenAIs Umsatz generiert - der Enterprise-Fokus bringt bessere Unit Economics.⁶⁴

Die technische Realität: Routing als Wirtschaftsinstrument

Vor diesem ökonomischen Hintergrund wird das technische Routing zu einem Instrument der Preisdiskriminierung. Dokumentierte Systeme wie Microsofts Azure Model Router oder Googles Gemini-API-Struktur zeigen, dass dynamische Routingentscheidungen Industriestandard sind.⁶⁵⁶⁶

Plausible Mechanismen (als Spekulation zu verstehen) umfassen:

Compute-Rationierung: Verschiedene Modellvarianten je nach Nutzertyp und Serverlast
Quantisierung: 8-Bit statt 32-Bit Berechnungen sparen ~40% Compute bei degradierter Leistung
Context-Trimming: Gespräche werden gekürzt, um Speicher zu sparen
MoE-Selective Firing: Expert-Module werden je nach Nutzer-Tier aktiviert

Diese Maßnahmen sind nicht böswillig, sondern ökonomisch rational angesichts der beschriebenen Unit Economics.

Die Synthese: Warum die Wette scheitern könnte

Die Token-Deflation von 79% jährlich klingt beeindruckend, reicht aber nicht aus. Bei gleichzeitigen Milliardenverlusten und wachsender Nutzerbasis entsteht ein Skalierungsparadox: Mehr Nutzer bedeuten höhere absolute Verluste.

Drei Faktoren verschärfen das Problem:

Open-Source-Druck: Modelle wie Llama 3.1 eliminieren Entwicklungskosten für Hosting-Anbieter und zerstören die Pricing-Power der proprietären Anbieter.

Qualitätsspirale: Kostendruck führt zu Qualitätsverschlechterung, diese zu Nutzerabwanderung, was den Kostendruck weiter erhöht.

Die Zeitbombe: Die Wette funktioniert nur, wenn Token-Kosten schneller fallen als die Nutzung wächst. Verlangsamt sich der technologische Fortschritt, kollabiert das Modell.

Konstruktive Ansätze: Was Nutzer tun können

Angesichts dieser Dynamik können Nutzer mehrere Strategien verfolgen:

Bewusste Prompt-Hygiene: Detaillierte Instruktionen, strukturierte Anfragen und expliziter Kontext kompensieren potenzielle Qualitätsverschlechterung.

Projektorganisation: Mit wachsender Komplexität sind bessere Dokumentation, klarere Anforderungen und systematisches "Guard Railing" essentiell.

Diversifizierung: Abhängigkeit von einzelnen Anbietern reduzieren, alternative Modelle und Open-Source-Lösungen testen.

Transparenzforderungen: Als Community könnten wir fordern: - Route/Variant-IDs bei jeder Antwort - Stabile Kanäle für konsistente Qualität - Changelogs bei Änderungen an Default-Einstellungen

Die unbequeme Wahrheit

Das vermeintliche "Schlechterwerden" von Sprachmodellen ist wahrscheinlich eine Kombination aus psychologischen Anpassungseffekten, methodischen Problemen bei der subjektiven Bewertung und ökonomisch motivierten technischen Entscheidungen.

Die LLM-Industrie befindet sich in einem nicht-nachhaltigen Geschäftsmodell, das auf kontinuierliche Effizienzsteigerungen angewiesen ist. Nutzer sind unbewusste Teilnehmer einer Subventionswette, deren Ausgang ungewiss ist.

Transparenz wäre der konstruktivste Weg aus diesem Dilemma. Statt in endlosen Diskussionen über "Skill Issues" zu verharren, sollten wir ein ehrliches Gespräch über die ökonomischen Realitäten führen und konsistente, nachvollziehbare Services einfordern.

Die Frage ist nicht, ob Modelle objektiv schlechter werden - die Frage ist, wie lange das aktuelle Geschäftsmodell ohne fundamentale Änderungen überlebensfähig bleibt.

Quellen

"How Much Money Do OpenAI And Anthropic Actually Make?" - wheresyoured.at ↩
"OpenAI and Anthropic Revenue Breakdown" - Tanay Jaipuria ↩
"Anthropic May Never Catch OpenAI. But It's Already 40% as Big" - SaaStr ↩
"Pricing | Cursor - The AI Code Editor" - cursor.com ↩
"Is Claude Code Really Cheaper than Cursor?" - apidog.com ↩
"Falling LLM Token Prices and What They Mean for AI Companies" - deeplearning.ai ↩
"LLM Pricing Comparison (2025): Live Rates + Cost Calculator" - binaryverseai.com ↩
"From Cursor to Claude Code — Why I'm Paying 5x More" - whiteprompt.com ↩
"2025 Mid-Year LLM Market Update: Foundation Model Landscape" - Menlo Ventures ↩
Microsoft Azure Model Router Documentation - azure.microsoft.com ↩
"LLM API Pricing Calculator | Compare 300+ AI Model Costs" - helicone.ai ↩

Alle Artikel zum Thema Kommentare