Die Transformer-Architektur bildet das Fundament der meisten modernen KI-Systeme — von Sprachmodellen wie GPT und Claude über Bildgeneratoren bis hin zu Werkzeugen für die Proteinstruktur-Vorhersage. Seit der Veröffentlichung des Papiers "Attention is All You Need" durch Vaswani et al. im Jahr 2017 hat sich diese Architektur als universeller Baustein für maschinelles Lernen etabliert. Dieser Artikel erklärt, welches fundamentale Problem der Transformer löst, wie sein zentraler Mechanismus — die Attention — funktioniert und warum sich drei unterschiedliche Architekturfamilien für verschiedene Aufgabenstellungen herausgebildet haben.
Das Problem: Sequenzielle Verarbeitung
Vor dem Transformer dominierten Recurrent Neural Networks (RNNs) und ihre Weiterentwicklung, die Long Short-Term Memory Networks (LSTMs), die Verarbeitung sequenzieller Daten wie Sprache. Diese Architekturen verarbeiteten Eingaben Wort für Wort in einer festen Reihenfolge — jedes neue Wort wurde unter Berücksichtigung der vorherigen Wörter verarbeitet, ähnlich wie ein Mensch einen Text von links nach rechts liest. Dieser sequenzielle Ansatz brachte zwei fundamentale Probleme mit sich.
Das erste Problem betrifft den Informationsverlust über lange Distanzen. In einem Satz wie "Der Hund, der gestern im Park einen Ball fand und damit durch die Wiese lief, war glücklich" muss das Verb "war" sich auf "Hund" beziehen — nicht auf "Ball", "Wiese" oder eines der anderen dazwischenliegenden Substantive. Bei RNNs durchläuft die Information über "Hund" viele Verarbeitungsschritte, bevor sie bei "war" ankommt, und wird bei jedem Schritt abgeschwächt. Dieses als Vanishing Gradient bekannte Phänomen führte dazu, dass Bezüge über lange Distanzen zunehmend verloren gingen. LSTMs milderten dieses Problem durch spezielle Gating-Mechanismen, konnten es aber nicht vollständig lösen.
Das zweite Problem war die fehlende Parallelisierbarkeit. Da jedes Wort erst verarbeitet werden konnte, nachdem das vorherige abgeschlossen war, ließ sich das Training nicht auf mehrere Prozessoren verteilen. Bei kurzen Sätzen war das akzeptabel, doch mit wachsenden Datenmengen und Modellgrößen wurde die sequenzielle Verarbeitung zum limitierenden Faktor. Die Trainingszeiten stiegen linear mit der Sequenzlänge, was das Skalieren auf die Datenmengen verhinderte, die für leistungsfähige Sprachmodelle notwendig gewesen wären.
Die Kernidee: Attention statt Rekurrenz
Der Transformer löst beide Probleme durch einen grundlegend anderen Ansatz: Statt Wörter nacheinander zu verarbeiten, betrachtet er alle Wörter einer Eingabe gleichzeitig. Der zentrale Mechanismus dafür ist die Self-Attention — jedes Element der Eingabe bewertet seine Beziehung zu allen anderen Elementen und gewichtet deren Informationen entsprechend. Ein Wort am Ende eines Satzes kann damit direkt auf ein Wort am Anfang zugreifen, ohne dass die Information durch dazwischenliegende Schritte fließen muss.
Die mathematische Umsetzung basiert auf drei gelernten Projektionen: Query, Key und Value. Jedes Eingabeelement wird in diese drei Repräsentationen transformiert. Der Query repräsentiert, wonach ein Element sucht — welche Art von Information es aus dem Kontext benötigt. Der Key repräsentiert, was ein Element anzubieten hat — wie es sich gegenüber anderen Elementen charakterisiert. Der Value enthält die eigentliche Information, die weitergegeben wird. Die Attention-Gewichte ergeben sich aus der Ähnlichkeit zwischen Query und Key: Je besser ein Key zu einem Query passt, desto stärker fließt der zugehörige Value in die Berechnung ein.
Eine anschauliche Analogie bietet die Bibliotheksrecherche: Der Query entspricht der Suchanfrage, die Keys entsprechen den Katalogeinträgen der Bücher, und die Values sind die Bücher selbst. Die Suche vergleicht die Anfrage mit allen Katalogeinträgen und liefert die Bücher zurück, deren Einträge am besten zur Anfrage passen — gewichtet nach Relevanz. Die formale Berechnung der Attention lautet:
Attention(Q, K, V) = softmax(Q × K^T / √d_k) × V
Die Division durch die Wurzel der Key-Dimension (√d_k) ist ein technisches Detail mit wichtiger Funktion: Bei großen Dimensionen können die Punktprodukte zwischen Query und Key sehr große Werte annehmen, die die nachfolgende Softmax-Funktion in einen Bereich drängen, in dem ihre Gradienten nahezu verschwinden. Ohne diese Normalisierung würde die Softmax-Ausgabe nahezu binär — ein Element erhielte fast alle Aufmerksamkeit, alle anderen praktisch keine, was das Lernen differenzierter Attention-Gewichte verhindert. Die Skalierung verhindert dieses Problem und stabilisiert das Training.
Multi-Head Attention: Mehrere Perspektiven gleichzeitig
Ein einzelner Attention-Mechanismus kann nur eine Art von Beziehung gleichzeitig modellieren — etwa syntaktische Abhängigkeiten oder semantische Ähnlichkeiten. Sprachliche Beziehungen sind jedoch vielschichtig: Das Wort "Bank" steht gleichzeitig in einer syntaktischen Beziehung zu seinem Verb, in einer semantischen Beziehung zu seinem Kontext (Geldinstitut oder Sitzgelegenheit) und in einer positionellen Beziehung zu den umgebenden Wörtern. Multi-Head Attention löst dieses Problem, indem mehrere parallele Attention-Mechanismen — die sogenannten Köpfe — gleichzeitig arbeiten.
Jeder Kopf verfügt über eigene gelernte Query-, Key- und Value-Projektionen und kann sich dadurch auf andere Aspekte der Eingabe spezialisieren. Analysen trainierter Modelle zeigen, dass verschiedene Köpfe tatsächlich unterschiedliche Funktionen übernehmen: Einige Köpfe spezialisieren sich auf syntaktische Abhängigkeiten wie die Beziehung zwischen Subjekt und Verb, andere erfassen semantische Zusammenhänge, wieder andere modellieren Koreferenzen — also die Erkennung, dass "er" und "der Wissenschaftler" dieselbe Person bezeichnen. Die Ergebnisse aller Köpfe werden am Ende verkettet und durch eine lineare Projektion zusammengeführt.
Die Anzahl der Attention-Köpfe variiert je nach Modellgröße und Einsatzzweck. BERT-base verwendet 12 Köpfe, GPT-3 nutzt 96, und die größten aktuellen Modelle arbeiten mit 128 oder mehr Köpfen. Die Wahl der Kopfanzahl ist dabei kein willkürlicher Parameter, sondern steht in einem Zusammenhang mit der Modelldimension: Jeder Kopf arbeitet auf einem Teilraum der Gesamtdimension, sodass bei einer Modelldimension von 768 und 12 Köpfen jeder Kopf mit Vektoren der Dimension 64 arbeitet.
Positional Encoding: Position ohne Sequenz
Die parallele Verarbeitung aller Eingabeelemente löst das Geschwindigkeitsproblem, schafft aber ein neues: Wenn alle Wörter gleichzeitig verarbeitet werden, geht die Information über ihre Reihenfolge verloren. Die Sätze "Der Hund beißt den Mann" und "Der Mann beißt den Hund" bestehen aus denselben Wörtern, haben aber offensichtlich unterschiedliche Bedeutungen. Ohne explizite Positionsinformation kann der Transformer diese Unterscheidung nicht treffen.
Die Lösung besteht darin, Positionsinformation direkt in die Eingabe-Repräsentationen einzubetten. Im ursprünglichen Transformer-Papier werden dafür sinusoidale Encodings verwendet — mathematische Funktionen verschiedener Frequenzen, die für jede Position ein eindeutiges Muster erzeugen. Diese Encodings werden zu den Wort-Embeddings addiert, sodass die resultierende Repräsentation sowohl die Bedeutung als auch die Position eines Wortes enthält. Der Vorteil sinusoidaler Encodings liegt darin, dass das Modell relative Positionsbeziehungen erlernen kann: Der Abstand zwischen Position 3 und Position 7 hat dasselbe Muster wie der Abstand zwischen Position 103 und Position 107.
Neuere Modelle verwenden weiterentwickelte Varianten wie Rotary Position Embeddings (RoPE) oder ALiBi (Attention with Linear Biases). RoPE kodiert Positionen durch Rotation der Query- und Key-Vektoren und ermöglicht eine bessere Generalisierung auf Sequenzlängen, die über die Trainingslänge hinausgehen. ALiBi verfolgt einen noch einfacheren Ansatz, indem es den Attention-Scores einen positionsabhängigen Bias hinzufügt, der nahegelegene Tokens bevorzugt. Diese moderneren Varianten haben sich insbesondere bei der Erweiterung der Kontextfenster als vorteilhaft erwiesen — ein Faktor, der für die Verarbeitung langer Dokumente und Dialoge zunehmend relevant ist.
Der vollständige Transformer-Block
Die bisher beschriebenen Komponenten — Attention und Positional Encoding — bilden zusammen mit wenigen weiteren Bausteinen einen Transformer-Block. Dieser Block wird vielfach gestapelt, um tiefe Netzwerke zu bilden: BERT-base verwendet 12 solcher Blöcke, GPT-3 nutzt 96, und die größten aktuellen Modelle kommen auf 120 oder mehr. Die Tiefe des Netzwerks — also die Anzahl der gestapelten Blöcke — bestimmt maßgeblich, wie abstrakte und komplexe Repräsentationen das Modell lernen kann.
Jeder Block folgt einer festen Abfolge: Zunächst durchläuft die Eingabe die Multi-Head Self-Attention, dann wird das Ergebnis über eine Residual Connection mit der ursprünglichen Eingabe addiert und durch eine Layer Normalization stabilisiert. Anschließend folgt ein Feed-Forward-Netzwerk, das die Dimensionalität zunächst erweitert — typischerweise um den Faktor vier — eine nichtlineare Aktivierungsfunktion anwendet und dann auf die ursprüngliche Dimension reduziert. Auch hier folgen wieder Residual Connection und Layer Normalization.
Die Residual Connections sind für das Funktionieren tiefer Transformer-Netzwerke essentiell. Ohne sie würden die Gradienten beim Training durch viele Schichten hindurch verschwinden — dasselbe Problem, das bereits bei tiefen RNNs auftrat. Durch die direkte Addition der Eingabe zum Ergebnis jeder Teilkomponente erhalten die Gradienten einen ungehinderten Pfad durch das gesamte Netzwerk. Die Layer Normalization stabilisiert die Aktivierungswerte zwischen den Schichten und verhindert, dass diese im Verlauf des Netzwerks zu stark wachsen oder schrumpfen. Das Feed-Forward-Netzwerk dient als nichtlineare Transformation, die die von der Attention-Schicht extrahierten Beziehungsinformationen weiterverarbeitet — aktuelle Forschung deutet darauf hin, dass diese Schicht als eine Art Wissensspeicher fungiert, in dem das Modell Faktenwissen ablegt.
Drei Architekturfamilien
Auf Basis des Transformer-Blocks haben sich drei Architekturfamilien herausgebildet, die sich in der Art der Attention und der Trainingsmethode unterscheiden. Diese Differenzierung ist der zentrale Beitrag des Transformers zur Landschaft der neuronalen Architekturen und bildet die Grundlage für das Verständnis aktueller KI-Systeme. Jede Familie bedient einen anderen Anwendungsschwerpunkt, und die Wahl der Variante hat direkte Auswirkungen auf die Fähigkeiten und Einsatzgebiete des resultierenden Modells.
Encoder-Only: Verstehen von Sprache
Die Encoder-Only-Architektur verwendet bidirektionale Attention: Jedes Wort kann auf alle anderen Wörter im Text zugreifen — sowohl auf vorherige als auch auf nachfolgende. Trainiert werden diese Modelle typischerweise durch Masked Language Modeling, bei dem zufällige Wörter im Text maskiert und vom Modell vorhergesagt werden müssen. Dieses Trainingsverfahren zwingt das Modell, den Kontext in beide Richtungen zu berücksichtigen und tiefes Textverständnis zu entwickeln.
BERT (Bidirectional Encoder Representations from Transformers) ist der bekannteste Vertreter dieser Familie. Seine Stärke liegt im Textverständnis: Klassifikationsaufgaben, Sentiment-Analyse, Named Entity Recognition und die Beantwortung von Fragen zu einem gegebenen Text. Eine hilfreiche Analogie: Encoder-Only-Modelle arbeiten wie ein Lektor, der einen fertigen Text liest, seine Bedeutung erfasst und Bewertungen vornimmt — aber nicht selbst schreibt. Weitere Vertreter sind RoBERTa, das BERTs Trainingsverfahren optimiert, und DeBERTa, das die Positionscodierung verbessert.
Decoder-Only: Generieren von Sprache
Die Decoder-Only-Architektur verwendet kausale Maskierung: Jedes Wort kann nur auf vorherige Wörter zugreifen, nicht auf nachfolgende. Diese Einschränkung entspricht dem natürlichen Schreibprozess — beim Verfassen eines Textes ist der nächste Satz noch nicht bekannt. Trainiert werden diese Modelle durch Next-Token-Prediction: Das Modell soll aus dem bisherigen Kontext das nächste Wort vorhersagen.
GPT (Generative Pre-trained Transformer), Claude und Llama gehören zu dieser Familie. Ihre Stärke liegt in der Textgenerierung: Chatbots, Code-Generierung, kreatives Schreiben und die Lösung komplexer Aufgaben durch schrittweises Reasoning. Die Analogie hier: Decoder-Only-Modelle arbeiten wie ein Autor, der Satz für Satz schreibt und dabei nur auf das zurückgreift, was er bereits geschrieben hat. Dass diese Architektur heute dominiert, liegt an mehreren Faktoren: Sie skaliert besonders gut mit wachsender Modellgröße und Datenmenge, das Trainingsverfahren ist vergleichsweise einfach und effizient, und Textgenerierung hat sich als universelle Schnittstelle erwiesen — selbst Klassifikationsaufgaben lassen sich als Generierungsaufgaben formulieren.
Encoder-Decoder: Übersetzen und Transformieren
Die Encoder-Decoder-Architektur kombiniert beide Ansätze: Ein Encoder verarbeitet die Eingabe bidirektional und erzeugt eine kontextualisierte Repräsentation, ein Decoder generiert daraus die Ausgabe autoregressive — also Wort für Wort. Die Verbindung zwischen beiden Teilen bildet die Cross-Attention: Der Decoder greift bei jedem Generierungsschritt auf die vollständige Encoder-Repräsentation zu und kann damit relevante Teile der Eingabe gezielt berücksichtigen.
T5 (Text-to-Text Transfer Transformer) und BART sind prominente Vertreter dieser Architektur. Ihre Stärke liegt bei Aufgaben mit klarer Eingabe-Ausgabe-Struktur: Übersetzung, Zusammenfassung und Texttransformation. Die Cross-Attention ermöglicht es dem Modell, die gesamte Eingabe bei der Generierung zu berücksichtigen, was bei Übersetzungsaufgaben besonders wertvoll ist — der Satzanfang der Übersetzung kann von Wörtern am Ende des Originalsatzes abhängen. In der Praxis ist diese Architektur weniger verbreitet als die Decoder-Only-Variante, da letztere die meisten Aufgaben ebenfalls lösen kann und einfacher zu skalieren ist.
Transformer jenseits von Sprache
Die Attention-Operation ist nicht an eine bestimmte Datenmodalität gebunden — sie modelliert Beziehungen zwischen beliebigen Elementen einer Sequenz. Diese Eigenschaft hat den Transformer zu einer universellen Architektur gemacht, die weit über die Sprachverarbeitung hinaus eingesetzt wird. Statt spezialisierte Architekturen für jede Datenart zu entwickeln, genügt es, die Eingabedaten in eine Sequenz von Vektoren umzuwandeln — den Rest übernimmt dieselbe Attention-Operation.
Der Vision Transformer (ViT) überträgt das Transformer-Prinzip auf Bilder, indem er ein Bild in ein Raster gleich großer Patches unterteilt und diese Patches als Sequenz behandelt — Patches statt Wörter, aber dieselbe Attention-Operation. Jeder Patch wird in einen Vektor umgewandelt und mit Positionsinformationen angereichert, bevor er durch die Transformer-Blöcke verarbeitet wird. Dieser Ansatz hat sich als wettbewerbsfähig mit spezialisierten Bildarchitekturen wie Convolutional Neural Networks erwiesen und dominiert bei ausreichend großen Datenmengen.
Im Audiobereich nutzt Whisper die Encoder-Decoder-Transformer-Architektur für die Spracherkennung: Der Encoder verarbeitet das Audiospektrogramm, der Decoder generiert den transkribierten Text. Für Musik setzt MusicGen einen ähnlichen Ansatz ein, wobei die generierten Tokens nicht Wörter, sondern Audiocodebook-Einträge repräsentieren. Besonders bemerkenswert ist die Anwendung in der Biowissenschaft: AlphaFold2 nutzt eine modifizierte Transformer-Architektur mit spezialisierter Attention für die Vorhersage von Proteinstrukturen, wobei die Attention-Mechanismen die Interaktionen zwischen Aminosäuren in der Proteinkette modellieren.
Multimodale Modelle wie GPT-4V und Gemini treiben diese Universalität auf die Spitze, indem sie verschiedene Datenmodalitäten — Text, Bild, Audio — in einer einheitlichen Transformer-Architektur verarbeiten. Die Eingaben verschiedener Modalitäten werden in einen gemeinsamen Embedding-Raum projiziert und anschließend durch dieselben Attention-Mechanismen verarbeitet. Dass eine einzige Architektur für so unterschiedliche Aufgaben funktioniert, liegt im Kern der Attention-Operation: Sie stellt Beziehungen zwischen Elementen her, unabhängig davon, ob diese Elemente Wörter, Bildpatches, Audiosegmente oder Aminosäuren sind.
Skalierung und Grenzen
Die Attention-Operation hat eine inhärente Einschränkung: Sie berechnet die Beziehung zwischen jedem Paar von Eingabeelementen, was zu einer quadratischen Komplexität in Bezug auf die Sequenzlänge führt. Bei einer Verdopplung der Kontextlänge vervierfacht sich der Rechenaufwand und der Speicherbedarf. Diese Eigenschaft setzte den frühen Transformer-Modellen enge Grenzen — BERTs Kontextfenster war auf 512 Tokens beschränkt.
Verschiedene Ansätze adressieren dieses Skalierungsproblem. Flash Attention optimiert die Hardware-Nutzung, indem es die Attention-Berechnung in kleinere Blöcke aufteilt, die effizienter in den schnellen GPU-Speicher passen — die mathematische Operation bleibt identisch, aber die Ausführung wird deutlich schneller und speichereffizienter. Sparse Attention reduziert die Komplexität, indem nicht alle Elementpaare berücksichtigt werden, sondern nur eine Teilmenge — etwa durch Sliding-Window-Muster, die lokale Kontexte priorisieren und globale Attention nur an ausgewählten Positionen berechnen. Durch die Kombination dieser Techniken haben sich die Kontextfenster in den letzten Jahren erheblich vergrößert: Claude und Gemini verarbeiten über 200.000 Tokens, was mehreren Hundert Seiten Text entspricht.
Parallel zu diesen Optimierungen entstehen Ansätze, die die Attention-Operation grundlegend überdenken. State Space Models wie Mamba ersetzen die quadratische Attention durch lineare Rekurrenz und erreichen bei bestimmten Aufgaben vergleichbare Leistung mit deutlich niedrigerem Rechenaufwand. Hybride Architekturen, die Transformer-Blöcke mit State-Space-Schichten kombinieren, werden aktiv erforscht und könnten die nächste Generation von Sprachmodellen prägen. Die Frage, ob die Attention-Operation die finale Lösung für sequenzielle Datenverarbeitung darstellt oder durch effizientere Alternativen ergänzt wird, bleibt Gegenstand intensiver Forschung.
Fazit
Der Transformer löste das Kernproblem der sequenziellen Verarbeitung, indem er Rekurrenz durch parallele Attention ersetzte. Der Self-Attention-Mechanismus ermöglicht es, Bezüge über beliebige Distanzen herzustellen, während Multi-Head Attention verschiedene Beziehungstypen gleichzeitig erfasst. Drei Architekturfamilien — Encoder-Only für Textverständnis, Decoder-Only für Textgenerierung, Encoder-Decoder für Transformation — bedienen unterschiedliche Aufgabenstellungen, wobei die Decoder-Only-Variante heute dominiert.
Die Universalität der Attention-Operation hat den Transformer zur Grundlage fast aller modernen KI-Systeme gemacht — von Sprachmodellen über Bildverarbeitung bis hin zur Proteinstruktur-Vorhersage. Gleichzeitig motiviert die quadratische Komplexität der Attention die Suche nach effizienteren Alternativen, die in den kommenden Jahren zu neuen Architektur-Varianten führen dürfte. Was ein trainiertes Transformer-Modell konkret enthält — die gelernten Gewichte, das Tokenizer-Vokabular, die Architektur-Konfiguration —, erläutert der Artikel über den Modellbegriff im maschinellen Lernen. Wie die Cross-Attention des Transformers in Diffusion Models die Steuerung der Bildgenerierung durch Text ermöglicht, zeigt der Artikel über Diffusion Models.