GPT-4 ist ein Modell, BERT ist ein Modell, ein Spam-Filter ist ein Modell — der Begriff taucht in nahezu jeder Diskussion über Künstliche Intelligenz auf. Doch trotz dieser Allgegenwärtigkeit bleibt oft unklar, was sich konkret hinter dem Wort verbirgt. Dieser Artikel klärt, was ein Modell im Kontext des maschinellen Lernens tatsächlich ist, wie es entsteht und was es von verwandten Begriffen wie Algorithmus und Architektur unterscheidet.
Was ist ein Modell?
Ein Modell im maschinellen Lernen ist das Ergebnis eines Lernprozesses — die gespeicherten Erkenntnisse, die ein Algorithmus aus Daten extrahiert hat. Es handelt sich um eine mathematische Struktur mit konkreten Zahlenwerten, die Eingaben auf Ausgaben abbildet: Ein Sprachmodell nimmt Text entgegen und erzeugt eine Fortsetzung, ein Bildklassifikator erhält ein Foto und liefert eine Kategorie. Der Algorithmus beschreibt das Lernverfahren, das Modell verkörpert das daraus resultierende Können.
Eine hilfreiche Analogie bietet das Kochen: Der Algorithmus entspricht dem Kochbuch — einer Anleitung, die beschreibt, wie bestimmte Zutaten zu einem Gericht verarbeitet werden. Das Modell hingegen entspricht der Fähigkeit einer erfahrenen Köchin, die nach jahrelanger Praxis intuitiv weiß, welche Gewürze zusammenpassen, wann der Teig die richtige Konsistenz hat und wie lange etwas im Ofen bleiben muss. Das Kochbuch allein produziert kein gutes Essen — es braucht die durch Erfahrung gelernten Feinheiten. Genauso produziert ein Algorithmus allein keine Vorhersagen — es braucht die durch Training gelernten Parameter.
Warum ist die Unterscheidung wichtig?
Drei Begriffe werden im KI-Kontext häufig vermischt: Algorithmus, Architektur und Modell. Der Algorithmus beschreibt das Lernverfahren — beispielsweise Gradient Descent, das die Parameter schrittweise optimiert. Die Architektur definiert den Bauplan des Netzwerks — also die Anzahl und Anordnung der Schichten, die Art der Verbindungen und die verwendeten Operationen. Der Transformer ist eine solche Architektur, ebenso wie ein Convolutional Neural Network. Das Modell schließlich ist das konkrete Ergebnis: eine Architektur, deren Parameter durch Training auf einem bestimmten Datensatz festgelegt wurden.
Wer "GPT-4" sagt, meint das trainierte Modell — nicht die Transformer-Architektur, auf der es basiert, und nicht den Trainingsalgorithmus, mit dem es optimiert wurde. GPT-4 und Claude nutzen verwandte Architekturen und ähnliche Trainingsverfahren, sind aber unterschiedliche Modelle mit unterschiedlichen Fähigkeiten, weil sie auf verschiedenen Daten mit verschiedenen Konfigurationen trainiert wurden. Diese Unterscheidung ist nicht nur terminologisch relevant, sondern hat praktische Konsequenzen: Die Wahl einer Architektur bestimmt die grundsätzlichen Fähigkeiten, die Wahl des Trainingsverfahrens beeinflusst die Effizienz, aber erst das konkrete Modell entscheidet über die tatsächliche Leistung bei einer gegebenen Aufgabe.
Vom Training zum Modell
Während des Trainings werden die Parameter eines neuronalen Netzes iterativ angepasst. Jeder Trainingsschritt vergleicht die aktuelle Vorhersage des Netzwerks mit dem gewünschten Ergebnis, berechnet den Fehler und passt die Gewichte entsprechend an — ein Prozess, den der Backpropagation-Algorithmus ermöglicht. Nach Tausenden oder Millionen solcher Anpassungsschritte konvergieren die Parameter zu Werten, die für die gegebene Aufgabe gute Ergebnisse liefern. Das Ergebnis dieses Prozesses — der Satz aller gelernten Zahlenwerte — ist das Modell.
Die Parameter eines Modells bestehen aus Gewichten und Bias-Werten. Gewichte bestimmen, wie stark die Verbindungen zwischen den Neuronen des Netzwerks sind, während Bias-Werte als Schwellenwerte fungieren. Jeder einzelne Parameter ist eine Fließkommazahl, die während des Trainings einen bestimmten Wert angenommen hat. Wenn von einem "7-Milliarden-Parameter-Modell" die Rede ist, bedeutet das, dass das Netzwerk sieben Milliarden solcher gelernter Zahlenwerte enthält — jeder davon ein kleines Stück des Wissens, das das Modell aus seinen Trainingsdaten extrahiert hat.
Die Modellgröße wird üblicherweise in der Anzahl der Parameter angegeben, wobei sich die Abkürzungen B für Milliarden (Billions) und M für Millionen eingebürgert haben. Ein 7B-Modell hat demnach sieben Milliarden Parameter, ein 70B-Modell siebzig Milliarden. Diese Zahl sagt etwas über die Kapazität des Modells aus — also wie viele Muster und Zusammenhänge es potenziell speichern kann — aber nicht automatisch über dessen Qualität.
Der Inhalt einer Modelldatei
Ein gespeichertes Modell enthält mehr als nur die gelernten Gewichte. Den Kern bilden die Parameter — die Millionen oder Milliarden von Fließkommazahlen, die das Netzwerk während des Trainings gelernt hat. Sie machen den Großteil der Dateigröße aus und repräsentieren das eigentliche Wissen des Modells. Daneben enthält die Datei eine Beschreibung der Architektur, also wie die einzelnen Schichten aufgebaut und miteinander verbunden sind. Ohne diese Information wäre der bloße Zahlensatz nicht interpretierbar, da die gleichen Gewichte in einer anderen Anordnung völlig andere Ergebnisse produzieren würden.
Bei Sprachmodellen gehört zusätzlich ein Tokenizer zur Modelldatei, der die Zuordnung zwischen Text und den numerischen Tokens definiert, die das Modell verarbeitet. Der Tokenizer bestimmt, wie Eingabetext in Einheiten zerlegt wird — ob ein Wort als Ganzes oder in Teilstücke aufgeteilt wird und welche numerische Repräsentation jedes Token erhält. Konfigurationsparameter wie die verwendete Lernrate, die Kontextlänge oder spezifische Trainingseinstellungen können ebenfalls gespeichert sein, sind aber für die reine Nutzung des Modells weniger relevant.
Ein wichtiger Unterschied besteht zwischen Checkpoints und fertigen Modellen. Checkpoints sind Zwischenstände, die während des Trainings in regelmäßigen Abständen gespeichert werden — als Sicherheitskopien, falls das Training unterbrochen wird, oder als Grundlage für spätere Vergleiche. Ein fertiges Modell ist der finale Stand nach Abschluss des Trainings, oft ergänzt um zusätzliche Optimierungen für den produktiven Einsatz. In der Praxis wird die Grenze zwischen beiden zunehmend fließend, da viele veröffentlichte Modelle technisch gesehen Checkpoints sind, die zu einem bestimmten Zeitpunkt des Trainings als hinreichend gut bewertet wurden.
Modellformate und ihre Bedeutung
Ähnlich wie bei Bildformaten — JPEG, PNG und WebP speichern denselben visuellen Inhalt in unterschiedlicher Verpackung — existieren verschiedene Formate für die Speicherung von Modellen. Die Unterschiede liegen in der Effizienz, der Sicherheit und der Kompatibilität mit verschiedenen Software-Ökosystemen. Die Wahl des Formats hat direkte Auswirkungen darauf, wo und wie ein Modell eingesetzt werden kann — von der Forschung auf spezialisierten Clustern bis zur lokalen Ausführung auf einem Laptop.
Das weit verbreitete PyTorch-Format (.pt oder .pth) nutzt Pythons Pickle-Mechanismus zur Serialisierung und ist der De-facto-Standard in der Forschung. Allerdings birgt dieses Format ein Sicherheitsrisiko: Pickle-Dateien können beim Laden beliebigen Code ausführen, was sie zu einem potenziellen Einfallstor für Schadsoftware macht. Als Antwort auf dieses Problem entstand SafeTensors, ein Format, das ausschließlich die Tensordaten speichert und keine Code-Ausführung erlaubt. SafeTensors hat sich als sicherere Alternative etabliert und wird von den meisten großen Modellplattformen unterstützt.
Für die lokale Ausführung auf normaler Consumer-Hardware hat sich das GGUF-Format als Standard durchgesetzt. Es wurde speziell für die effiziente Nutzung auf CPUs und Systemen mit begrenztem Arbeitsspeicher entwickelt und enthält neben den Gewichten auch alle notwendigen Metadaten in einer einzelnen Datei. GGUF ist das bevorzugte Format für Werkzeuge wie llama.cpp und Ollama, die es ermöglichen, Sprachmodelle ohne spezialisierte GPU-Hardware zu betreiben. Das ONNX-Format verfolgt einen anderen Ansatz und bietet einen framework-übergreifenden Standard, der den Austausch zwischen verschiedenen Software-Ökosystemen ermöglicht — ein Modell kann beispielsweise in PyTorch trainiert und anschließend in ONNX exportiert werden, um es mit anderen Laufzeitumgebungen einzusetzen.
Quantisierung: Modelle kompakter machen
Die Speicherung eines einzelnen Parameters in voller Genauigkeit erfordert 32 Bit oder 4 Byte. Bei einem 70-Milliarden-Parameter-Modell ergibt sich daraus ein Speicherbedarf von rund 280 Gigabyte allein für die Gewichte — mehr als die meisten Server bieten und weit jenseits dessen, was auf einem Laptop verfügbar ist. Selbst in Rechenzentren stellt diese Größenordnung eine Herausforderung dar, da der Arbeitsspeicher moderner GPUs typischerweise bei 24 bis 80 Gigabyte liegt. Quantisierung löst dieses Problem, indem die Gewichte mit geringerer Genauigkeit gespeichert werden, beispielsweise mit 16, 8 oder sogar 4 Bit pro Parameter.
Die Grundidee ist, den Wertebereich der Gewichte auf weniger Abstufungen abzubilden. Während eine 32-Bit-Fließkommazahl über vier Milliarden verschiedene Werte darstellen kann, reichen bei einer 4-Bit-Darstellung nur 16 verschiedene Werte. Das klingt nach einem erheblichen Verlust, doch in der Praxis zeigt sich, dass die meisten Gewichte eines Modells in einem relativ engen Wertebereich liegen und die gröberen Abstufungen ausreichen, um die wesentlichen Muster zu bewahren. Ein 70B-Modell, das in 4-Bit-Quantisierung nur noch etwa 35 Gigabyte benötigt, verliert typischerweise nur wenige Prozent seiner Leistungsfähigkeit.
Die praktische Bedeutung der Quantisierung liegt in der Demokratisierung des Zugangs zu leistungsfähigen Modellen. Ein 7B-Modell in 4-Bit-Quantisierung benötigt etwa 4 Gigabyte Arbeitsspeicher und lässt sich damit auf einem gewöhnlichen Laptop betreiben — ohne Cloud-Dienst, ohne Internetverbindung, ohne laufende Kosten. Diese Möglichkeit hat eine aktive Community hervorgebracht, die quantisierte Modelle für verschiedene Anwendungszwecke bereitstellt und damit den Zugang zu lokaler KI-Nutzung erheblich vereinfacht. Der Trade-off zwischen Modellgröße und Qualität ist dabei keine binäre Entscheidung, sondern ein Spektrum: 8-Bit-Quantisierung bewahrt nahezu die volle Qualität bei halbiertem Speicherbedarf, während 4-Bit-Quantisierung noch aggressiver komprimiert, aber für viele Anwendungsfälle ausreichende Ergebnisse liefert.
Modellgrößen im Vergleich
Das Spektrum der Modellgrößen ist enorm: Ein lineares Regressionsmodell kommt mit einer Handvoll Parameter aus, ein einfacher Spam-Filter benötigt einige Tausend, während moderne Sprachmodelle in die Hunderte von Milliarden gehen. GPT-4 wird auf etwa 1,8 Billionen Parameter geschätzt, obwohl die genaue Zahl nicht öffentlich bestätigt ist. Diese Größenordnungen spiegeln die unterschiedliche Komplexität der jeweiligen Aufgaben wider: Das Erkennen linearer Zusammenhänge erfordert wenige Parameter, das Modellieren der gesamten menschlichen Sprache mit ihren Nuancen, Mehrdeutigkeiten und kulturellen Kontexten erfordert ungleich mehr.
Mehr Parameter bedeuten grundsätzlich mehr Kapazität — also die Fähigkeit, komplexere Muster zu speichern und feinere Unterscheidungen zu treffen. Doch Größe allein ist kein Qualitätsgarant. Die Skalierungsgesetze beschreiben den empirisch beobachteten Zusammenhang zwischen Modellgröße, Datenmenge und Rechenaufwand: Wenn eines dieser drei Elemente nicht proportional mitskaliert, stagniert die Verbesserung. Ein Modell mit einer Billion Parameter, das auf zu wenigen oder qualitativ schlechten Daten trainiert wurde, kann schlechter abschneiden als ein deutlich kleineres Modell mit besserem Training.
Ein anschauliches Beispiel liefert die Llama-Modellfamilie von Meta: Llama 3 mit 8 Milliarden Parametern übertrifft in vielen Benchmarks ältere Modelle mit 13 Milliarden Parametern, weil es auf einer größeren und sorgfältiger kuratierten Datenmenge trainiert wurde. Dieses Phänomen — dass ein kleineres, aber besser trainiertes Modell ein größeres übertrifft — hat die Entwicklungsstrategie vieler Forschungslabore verändert. Statt immer größere Modelle zu bauen, liegt der Fokus zunehmend auf optimaler Nutzung der vorhandenen Rechenkapazität durch bessere Daten und effizientere Trainingsmethoden.
Fazit
Ein Modell ist kein Programm im klassischen Sinn — es ist gelerntes Wissen in Zahlenform. Es entsteht, wenn ein Algorithmus eine Architektur auf Daten trainiert und dabei Millionen oder Milliarden von Parametern so anpasst, dass sie nützliche Vorhersagen ermöglichen. Die Modelldatei speichert diese Parameter zusammen mit der Architekturbeschreibung und weiteren Metadaten in einem der gängigen Formate.
Die praktische Relevanz dieser Konzepte zeigt sich in den täglichen Entscheidungen beim Einsatz von KI-Systemen: Welches Modell ist für eine bestimmte Aufgabe geeignet? Reicht ein kompaktes quantisiertes Modell, das lokal auf einem Laptop läuft, oder ist ein großes Cloud-Modell erforderlich? Diese Abwägungen zwischen Größe, Qualität, Geschwindigkeit und Kosten setzen ein Verständnis dessen voraus, was ein Modell eigentlich ist — und was die Zahlen in seinem Namen bedeuten. Die heute dominante Architektur hinter den meisten großen Sprachmodellen — der Transformer — wendet dasselbe Grundprinzip gelernter Gewichte in einer definierten Struktur auf die Verarbeitung von Sprache an. Wie Diffusion Models dasselbe Prinzip für die Bildgenerierung nutzen, zeigt die Universalität des Modellbegriffs über verschiedene KI-Domänen hinweg.