Der Attention-Mechanismus ist das Herzstück moderner KI-Systeme. Ob ein Sprachmodell den Bezug eines Pronomens über hundert Wörter hinweg auflöst, ob ein Bildgenerator einen Textprompt in visuelle Strukturen übersetzt oder ob AlphaFold die Faltung eines Proteins vorhersagt - in jedem dieser Fälle entscheidet Attention darüber, welche Informationen relevant sind und wie stark sie gewichtet werden. Doch Attention war nicht immer so zentral. Ihre Geschichte beginnt als bescheidenes Hilfsmittel für die maschinelle Übersetzung und mündet in einem Paper, dessen Titel zum Programm wurde: Attention Is All You Need.
Dieser Artikel zeichnet diese Entwicklung nach - von der ersten Attention-Idee über den konzeptionellen Sprung zur Self-Attention bis zu den modernen Varianten, die das Skalierungsproblem adressieren. Er ergänzt den Überblick über die Transformer-Architektur, der Attention als einen Baustein unter vielen behandelt, und bildet eine technische Brücke zur Serie Gehirn und Sprachmodell, die Attention aus der Perspektive biologischer Kognition betrachtet.
Vor dem Transformer: Attention als Alignment-Lösung
Das Alignment-Problem
Im Jahr 2014 war die maschinelle Übersetzung das Flaggschiff-Problem des Deep Learning. Die vorherrschende Architektur - das Encoder-Decoder-Modell mit Recurrent Neural Networks - funktionierte nach einem einfachen Prinzip: Der Encoder las den Quellsatz Wort für Wort und komprimierte ihn in einen einzelnen Vektor fester Länge, den sogenannten Context Vector. Der Decoder generierte daraus den Zielsatz, ebenfalls Wort für Wort.
Das Problem lag in der Kompression. Ein einzelner Vektor, typischerweise mit 256 oder 512 Dimensionen, musste die gesamte Bedeutung eines Satzes kodieren - unabhängig davon, ob der Satz fünf oder fünfzig Wörter lang war. Bei kurzen Sätzen funktionierte das akzeptabel. Bei längeren Sätzen ging Information verloren, und die Übersetzungsqualität brach ein. Besonders problematisch: Der Decoder hatte keine Möglichkeit, bei der Generierung eines bestimmten Zielworts gezielt auf das relevante Quellwort zuzugreifen. Er musste sich auf den komprimierten Gesamtkontext verlassen.
Bahdanau-Attention: Der erste Attention-Mechanismus
Bahdanau, Cho und Bengio lösten dieses Problem 2014 mit einer eleganten Idee: Statt den gesamten Quellsatz in einen einzigen Vektor zu pressen, sollte der Decoder bei jedem Generierungsschritt selbst entscheiden, welche Teile des Quellsatzes relevant sind. Dafür erhielt der Decoder Zugriff auf alle Hidden States des Encoders - nicht nur auf den letzten.
Der Mechanismus funktioniert in drei Schritten:
- Relevanz bewerten: Für jedes Zielwort berechnet ein kleines neuronales Netz einen Score für jeden Quellposition-Hidden-State. Dieser Score drückt aus, wie relevant die jeweilige Quellposition für das aktuell zu generierende Wort ist.
- Gewichte normalisieren: Die Scores werden durch eine Softmax-Funktion in Gewichte umgewandelt, die sich zu 1 aufsummieren - eine Wahrscheinlichkeitsverteilung über die Quellpositionen.
- Gewichtete Summe bilden: Die Encoder-Hidden-States werden mit diesen Gewichten multipliziert und aufsummiert. Das Ergebnis ist ein kontextspezifischer Vektor, der für jedes Zielwort anders ausfällt.
Formal:
score(s_i, h_j) = v^T · tanh(W_s · s_i + W_h · h_j)
α_ij = softmax(score(s_i, h_j))
c_i = Σ_j α_ij · h_j
Dabei ist s_i der Decoder-Zustand beim Generieren des i-ten Zielworts und h_j der Encoder-Hidden-State an Position j. Die gelernten Parameter W_s, W_h und v bestimmen, wie Relevanz berechnet wird.
Der Effekt war beeindruckend: Bei der Übersetzung von "Die Katze sitzt auf der Matte" ins Englische lernte das Modell, bei der Generierung von "cat" hauptsächlich auf "Katze" zu achten, bei "mat" auf "Matte". Das Modell hatte gelernt, Quell- und Zielwörter einander zuzuordnen - ein Alignment, das vorher manuell oder durch statistische Methoden approximiert werden musste.
Von additiver zu multiplikativer Attention
Luong et al. schlugen 2015 eine Vereinfachung vor: Statt ein neuronales Netz zur Score-Berechnung zu verwenden (additive Attention), genügt ein einfaches Skalarprodukt (multiplikative Attention):
score(s_i, h_j) = s_i^T · h_j
Oder mit einer gelernten Matrix:
score(s_i, h_j) = s_i^T · W · h_j
Multiplikative Attention ist rechnerisch effizienter, weil Skalarprodukte als Matrixmultiplikationen parallelisierbar sind - ein Vorteil, der auf GPUs erheblich ist. In der Praxis zeigten beide Varianten ähnliche Leistung, doch die multiplikative Form legte den Grundstein für die spätere Self-Attention des Transformers.
Zu diesem Zeitpunkt war Attention jedoch noch ein Add-on: ein nützliches Werkzeug, das RNNs ergänzte, aber nicht ersetzte. Die sequenzielle Verarbeitung der RNNs blieb der Engpass. Es brauchte einen konzeptionellen Sprung, um Attention von einer Hilfsfunktion zum alleinigen Verarbeitungsmechanismus zu machen.
Self-Attention: Der konzeptionelle Sprung von 2017
Von "schau auf die Quelle" zu "schau auf dich selbst"
Die Attention von Bahdanau und Luong war asymmetrisch: Der Decoder schaute auf den Encoder - eine Sequenz bewertete die Relevanz einer anderen. Der Transformer-Paper Vaswani et al. (2017) führte eine entscheidende Erweiterung ein: Self-Attention, bei der eine Sequenz die Relevanz ihrer eigenen Elemente untereinander bewertet.
Dieser Unterschied klingt subtil, ist aber ein konzeptioneller Umbruch. Bei der Übersetzung fragt der Decoder: "Welches Quellwort ist für mein aktuelles Zielwort relevant?" Bei Self-Attention fragt jedes Wort eines Satzes: "Welche anderen Wörter in meinem Satz sind für mein Verständnis relevant?" Ein Pronomen wie "er" lernt, auf das Substantiv zu achten, auf das es sich bezieht. Ein Adjektiv lernt, das Nomen zu finden, das es modifiziert. Ein Verb lernt, sein Subjekt zu identifizieren - auch über lange Distanzen hinweg.
Query, Key und Value: Die mathematische Intuition
Self-Attention formalisiert diese Idee durch drei gelernte Projektionen. Jedes Eingabeelement - repräsentiert als Vektor x_i - wird in drei verschiedene Darstellungen transformiert:
Q_i = W_Q · x_i (Query: "Wonach suche ich?")
K_i = W_K · x_i (Key: "Was habe ich anzubieten?")
V_i = W_V · x_i (Value: "Welche Information trage ich?")
Die Trennung in Query, Key und Value ist der entscheidende Designschritt. Sie ermöglicht, dass ein Element nach etwas anderem suchen kann, als es selbst anbietet. Ein Verb kann beispielsweise nach seinem Subjekt suchen (Query), sich gleichzeitig als Prädikats-Anker anbieten (Key) und seine semantische Bedeutung weitergeben (Value).
Die Attention-Berechnung folgt dann der bekannten Formel:
Attention(Q, K, V) = softmax(Q · K^T / √d_k) · V
Skalierung und Softmax
Zwei Designentscheidungen in dieser Formel verdienen eine genauere Betrachtung.
Die Skalierung durch √d_k: Das Skalarprodukt zweier Vektoren wächst mit deren Dimension. Bei einer typischen Dimension von d_k = 64 liegt das erwartete Skalarprodukt zweier zufälliger Einheitsvektoren bei 0, aber die Varianz steigt mit d_k. Bei hohen Dimensionen können die Werte so groß werden, dass die nachfolgende Softmax-Funktion in die Sättigung getrieben wird - fast alle Gewichte werden 0, eines wird fast 1. In diesem Regime sind die Gradienten nahezu null, und das Modell kann nicht mehr lernen. Die Division durch √d_k normalisiert die Varianz auf 1, unabhängig von der Dimension.
Die Softmax-Funktion: Softmax wandelt beliebige Scores in eine Wahrscheinlichkeitsverteilung um - alle Werte sind positiv und summieren sich zu 1. Das erzwingt eine kompetitive Aufmerksamkeit: Wenn ein Element mehr Gewicht erhält, müssen andere weniger bekommen. Diese Eigenschaft unterscheidet Attention deutlich von alternativen Aggregationsmethoden wie einfacher Mittelung. Sie ermöglicht scharfe, selektive Fokussierung - eine Eigenschaft, die sich auch in der biologischen Aufmerksamkeit findet.
Schritt für Schritt: Ein Rechenbeispiel
Betrachten wir den Satz "Die Katze schläft" mit drei Token-Vektoren. Nehmen wir vereinfacht an, d_k = 2:
x₁ = [1, 0] ("Die")
x₂ = [0, 1] ("Katze")
x₃ = [1, 1] ("schläft")
Mit (vereinfachten) Gewichtsmatrizen ergeben sich Query-, Key- und Value-Vektoren. Die Score-Matrix Q·K^T enthält für jedes Paar einen Wert - etwa score(schläft, Katze) = 0.8, score(schläft, Die) = 0.2. Nach Skalierung und Softmax ergibt sich eine Gewichtsverteilung: "schläft" achtet zu 71% auf "Katze" und zu 29% auf "Die". Der resultierende Value-Vektor für "schläft" ist eine entsprechend gewichtete Kombination der Value-Vektoren beider Wörter.
In einem trainierten Modell mit Millionen von Parametern lernen die Gewichtsmatrizen W_Q, W_K und W_V, diese Zuordnungen für beliebige Sätze korrekt herzustellen - nicht durch explizite Regeln, sondern durch die statistische Struktur der Trainingsdaten.
Multi-Head Attention: Spezialisierung durch Parallelisierung
Warum ein einzelner Attention-Kopf nicht reicht
Ein einzelner Attention-Mechanismus produziert eine einzige Gewichtsverteilung pro Element. Doch sprachliche Beziehungen sind vielschichtig: Das Wort "Bank" steht gleichzeitig in einer syntaktischen Beziehung zu seinem Verb ("steht"), in einer semantischen Beziehung zu seinem Kontext ("Geld" → Geldinstitut, "Park" → Sitzgelegenheit) und in einer koreferenziellen Beziehung zu einem späteren Pronomen ("sie"). Ein einzelner Kopf müsste all diese Beziehungen in einer einzigen Gewichtsverteilung komprimieren.
Multi-Head Attention löst dieses Problem durch Parallelisierung: Statt eines großen Attention-Kopfes arbeiten mehrere kleinere Köpfe gleichzeitig, jeder mit eigenen gelernten Projektionsmatrizen:
head_i = Attention(Q · W_Q^i, K · W_K^i, V · W_V^i)
MultiHead(Q, K, V) = Concat(head_1, ..., head_h) · W_O
Bei einer Modelldimension von 768 und 12 Köpfen arbeitet jeder Kopf mit Vektoren der Dimension 64. Die Rechenkosten bleiben identisch zu einem einzelnen Kopf mit Dimension 768, aber die Repräsentationskapazität steigt erheblich.
Was verschiedene Heads lernen
Analysen trainierter Modelle, etwa durch Clark et al. (2019) für BERT und Olsson et al. (2022) für GPT-artige Modelle, zeigen konsistente Spezialisierungsmuster:
Syntaktische Heads lernen grammatische Abhängigkeiten. Bestimmte Heads in den frühen Schichten spezialisieren sich auf Subjekt-Verb-Beziehungen: Sie weisen dem Verb hohe Attention auf sein Subjekt zu, unabhängig von der Distanz. Andere Heads erfassen Determiner-Nomen-Beziehungen ("der" → "Hund") oder Präposition-Objekt-Bindungen.
Semantische Heads in mittleren Schichten erfassen Bedeutungsbeziehungen. Sie gruppieren thematisch zusammengehörige Wörter oder identifizieren semantische Rollen: Wer handelt? Wer wird beeinflusst?
Positionale Heads achten primär auf relative Positionen. Einige Heads fokussieren konsistent auf das vorherige Token, andere auf das nächste - sie implementieren eine Art lokales Kontextfenster innerhalb des globalen Attention-Mechanismus.
Induction Heads sind ein besonders bemerkenswerter Befund: Olsson et al. identifizierten Heads, die In-Context-Learning implementieren, indem sie Muster der Form "A B ... A → B" erkennen. Wenn im Kontext die Sequenz "Harry Potter" auftaucht und später erneut "Harry" erscheint, weist ein Induction Head dem Token "Potter" hohe Attention zu. Diese Heads sind maßgeblich für die Fähigkeit von Sprachmodellen, aus wenigen Beispielen im Kontext zu lernen.
Head Pruning: Nicht alle Heads sind gleich wichtig
Nicht jeder Head trägt gleich viel zum Ergebnis bei. Michel et al. (2019) zeigten, dass in BERT bis zu 40% der Heads entfernt werden können, ohne signifikanten Leistungsverlust. Einige Heads sind sogar redundant - sie lernen nahezu identische Attention-Patterns. Andere sind kritisch: Das Entfernen bestimmter syntaktischer Heads in frühen Schichten führt zu deutlichem Leistungsabfall bei grammatisch komplexen Sätzen.
Dieses Ergebnis hat praktische Implikationen für die Inferenz-Effizienz: Wenn ein Drittel der Heads überflüssig ist, kann ein Modell nach dem Training schlanker gemacht werden, ohne viel Qualität einzubüßen - ein Prinzip, das in der Praxis durch Structured Pruning umgesetzt wird.
Cross-Attention: Brücke zwischen Repräsentationen
Wie Encoder und Decoder kommunizieren
Während Self-Attention die Beziehungen innerhalb einer Sequenz modelliert, verbindet Cross-Attention zwei verschiedene Repräsentationen: Die Queries stammen aus einer Sequenz (typischerweise dem Decoder), die Keys und Values aus einer anderen (dem Encoder). Dieser Mechanismus ist zentral für Encoder-Decoder-Architekturen und für alle Aufgaben, bei denen ein Modell eine Eingabe in eine strukturell andere Ausgabe überführen muss.
CrossAttention(Q_decoder, K_encoder, V_encoder) = softmax(Q_decoder · K_encoder^T / √d_k) · V_encoder
Bei der Übersetzung ermöglicht Cross-Attention dem Decoder, bei der Generierung jedes Zielworts auf alle Positionen des kodierten Quellsatzes zuzugreifen - im Grunde eine differenzierbare, gelernte Version der Bahdanau-Attention, mit der die Geschichte begann.
Cross-Attention in Diffusion Models
Eine der einflussreichsten Anwendungen von Cross-Attention findet sich in Diffusion Models wie Stable Diffusion. Hier steuert Cross-Attention, wie ein Text-Prompt die Bildgenerierung beeinflusst. Der Text wird durch einen Encoder (typischerweise CLIP) in eine Sequenz von Vektoren kodiert. Das U-Net, das die schrittweise Entrauschung durchführt, erhält an mehreren Stellen Cross-Attention-Schichten, in denen:
- Queries aus den aktuellen Bildfeatures stammen (räumliche Positionen im Bild)
- Keys und Values aus der Text-Repräsentation stammen
Dadurch kann jede räumliche Position im Bild auf die relevanten Wörter des Prompts zugreifen. Bei einem Prompt wie "eine rote Katze auf einem blauen Sofa" lernt das Modell, dass die Bildregion der Katze auf "rote Katze" achtet und die Sofa-Region auf "blaues Sofa". Dieser Mechanismus wird im Artikel über Diffusion Models ausführlich behandelt.
Multimodale Modelle
In Modellen wie GPT-4V und Gemini verschmilzt Cross-Attention verschiedene Modalitäten in einem gemeinsamen Raum. Bild-Patches werden als visuelle Tokens behandelt, die durch Cross-Attention mit Text-Tokens interagieren. Die konzeptionelle Eleganz: Derselbe Mechanismus, der in der Übersetzung Quell- und Zielsprache verbindet, verbindet hier visuelle und sprachliche Repräsentationen.
Moderne Attention-Varianten
Die Standard-Self-Attention hat eine inhärente Schwäche: Ihre Komplexität wächst quadratisch mit der Sequenzlänge. Bei einer Verdopplung der Kontextlänge vervierfachen sich Rechenaufwand und Speicherbedarf. Diese Eigenschaft begrenzte frühe Transformer auf 512 Tokens (BERT) und motivierte eine Reihe von Optimierungen, die Attention schneller, speichereffizienter oder beides machen - ohne die Qualität wesentlich zu beeinträchtigen.
Multi-Query und Grouped-Query Attention
Die klassische Multi-Head Attention erzeugt für jeden Head separate Query-, Key- und Value-Projektionen. Bei der Inferenz - also dem Einsatz eines trainierten Modells - werden die Key- und Value-Vektoren aller vorherigen Tokens im sogenannten KV-Cache gespeichert, um sie nicht bei jedem neuen Token neu berechnen zu müssen. Bei langen Kontexten und vielen Heads wird dieser Cache zum Speicher-Engpass.
Multi-Query Attention (MQA), vorgeschlagen von Shazeer (2019), teilt Keys und Values über alle Heads - nur die Queries bleiben head-spezifisch. Das reduziert den KV-Cache um den Faktor der Kopfanzahl, kann aber die Modellqualität leicht reduzieren.
Grouped-Query Attention (GQA), eingeführt mit Llama 2, bietet einen Kompromiss: Statt alle Heads (MHA) oder einen einzigen (MQA) zu verwenden, teilen sich Gruppen von Heads ihre Keys und Values. Bei 32 Heads und 8 KV-Gruppen teilen sich je 4 Heads eine KV-Projektion. GQA erreicht nahezu die Qualität von Multi-Head Attention bei deutlich geringerem Speicherbedarf und hat sich als Standard für aktuelle Modelle etabliert.
MHA: 32 Query-Heads, 32 KV-Heads → voller KV-Cache
GQA: 32 Query-Heads, 8 KV-Heads → ¼ KV-Cache
MQA: 32 Query-Heads, 1 KV-Head → 1/32 KV-Cache
Flash Attention: Hardware statt Mathematik
Flash Attention (Dao et al., 2022) ändert nicht die mathematische Operation, sondern deren Ausführung auf der Hardware. Das Problem: Die Standard-Attention-Berechnung materialisiert die vollständige N×N Attention-Matrix im GPU-Speicher (HBM), was bei langen Sequenzen sowohl den Speicher sprengt als auch durch den langsamen HBM-Zugriff zum Engpass wird.
Flash Attention zerlegt die Berechnung in Kacheln (Tiles), die vollständig im schnellen On-Chip-SRAM bearbeitet werden. Die Attention-Matrix wird nie vollständig im Speicher materialisiert - stattdessen werden die Ergebnisse blockweise berechnet und akkumuliert. Der Trick liegt in einer numerisch stabilen Online-Softmax-Berechnung, die es erlaubt, die Softmax-Normalisierung inkrementell über die Kacheln hinweg durchzuführen.
Das Ergebnis: 2-4× schnellere Attention-Berechnung bei deutlich geringerem Speicherverbrauch. Flash Attention hat sich als Standard-Implementierung in allen großen Frameworks durchgesetzt und ist ein wesentlicher Grund dafür, dass moderne Modelle mit Kontextfenstern von 100.000+ Tokens praktikabel sind.
Sliding Window Attention
Mistral führte Sliding Window Attention als architektonische Vereinfachung ein: Statt auf alle vorherigen Tokens zuzugreifen, sieht jedes Token nur ein Fenster fester Größe - typischerweise 4.096 Tokens. Die Attention-Komplexität sinkt von O(n²) auf O(n · w), wobei w die Fenstergröße ist.
Der naheliegende Einwand - dass damit langreichweitige Abhängigkeiten verloren gehen - wird durch die Tiefe des Netzwerks entschärft. Über mehrere Schichten gestapelt, wächst das effektive Kontextfenster mit jeder Schicht um die Fenstergröße. Bei einem Fenster von 4.096 und 32 Schichten beträgt das theoretische effektive Fenster 131.072 Tokens. In der Praxis zeigt Sliding Window Attention vergleichbare Leistung zu voller Attention, solange die Fenstergröße groß genug ist.
KV-Cache: Warum Inferenz anders tickt als Training
Ein Aspekt, der in Erklärungen der Attention oft fehlt, ist der zentrale Unterschied zwischen Training und Inferenz. Beim Training werden alle Tokens eines Textes parallel verarbeitet - die volle Attention-Matrix wird in einem Durchgang berechnet. Bei der Inferenz generiert ein autoregressives Modell Token für Token. Jedes neue Token muss gegen alle vorherigen Tokens Attention berechnen.
Ohne Optimierung müssten bei jedem neuen Token die Key- und Value-Projektionen aller vorherigen Tokens neu berechnet werden. Der KV-Cache speichert diese Projektionen und ermöglicht, dass nur das neue Token verarbeitet werden muss. Der Preis: Der Cache wächst linear mit der Kontextlänge und der Anzahl der KV-Heads, was bei langen Kontexten Gigabytes an GPU-Speicher belegen kann. GQA und MQA adressieren genau dieses Problem.
Biologische Parallelen: Attention als universelles Prinzip
Die Wahl des Begriffs "Attention" für den Mechanismus in neuronalen Netzen war kein Zufall - es gibt substanzielle Parallelen zwischen künstlicher und biologischer Aufmerksamkeit.
Ressourcenallokation unter Beschränkung
Sowohl das menschliche Gehirn als auch Transformer-Modelle stehen vor demselben Grundproblem: Mehr Information ist verfügbar, als gleichzeitig verarbeitet werden kann. Die Lösung in beiden Systemen ist eine selektive Gewichtung - nicht alle Eingaben werden gleich behandelt.
Im Gehirn allokiert der Focus of Attention im Arbeitsgedächtnis begrenzte kognitive Ressourcen auf die relevantesten Stimuli. In der künstlichen Self-Attention erzwingt die Softmax-Normalisierung eine kompetitive Verteilung: Mehr Gewicht für ein Element bedeutet weniger für andere. In beiden Fällen ist Attention ein Mechanismus der Informationskompression - die Reduktion eines hochdimensionalen Inputs auf eine handhabbare Repräsentation.
Primacy/Recency und Lost-in-the-Middle
Ein besonders auffälliges Parallelergebnis: Menschen erinnern Anfang und Ende von Listen besser als die Mitte (Primacy/Recency-Effekt), und Sprachmodelle verarbeiten Information am Anfang und Ende langer Kontexte zuverlässiger als in der Mitte (Lost-in-the-Middle-Effekt). Die Implementierung ist verschieden - serielle Verarbeitung beim Menschen, parallele bei Transformern - aber der funktionale Effekt ist bemerkenswert ähnlich. Die Serie Gehirn und Sprachmodell untersucht diese Parallelen im Detail, insbesondere im Artikel über Attention und Gedächtnis.
Grenzen der Analogie
Die Parallele hat klare Grenzen. Biologische Aufmerksamkeit ist dynamisch und kontextabhängig - sie kann durch Top-Down-Signale (Erwartungen, Ziele) und Bottom-Up-Signale (Salienz, Überraschung) moduliert werden. Künstliche Attention ist nach dem Training fixiert: Die Gewichtsmatrizen ändern sich nicht mehr, nur die konkreten Attention-Gewichte variieren mit der Eingabe. Biologische Aufmerksamkeit interagiert mit Emotionen, Motivation und Gedächtnis - Dimensionen, die in Transformer-Attention nicht existieren.
Dennoch ist die funktionale Parallele bemerkenswert: Beide Systeme lösen das Problem der Informationsselektion durch gewichtete Aggregation, beide zeigen ähnliche Schwächen bei der Verarbeitung langer Sequenzen, und beide nutzen eine Form der Spezialisierung - verschiedene Attention Heads im Transformer, verschiedene Aufmerksamkeitsnetzwerke im Gehirn.
Offene Fragen und Alternativen
Die quadratische Grenze
Trotz aller Optimierungen bleibt die inhärente Eigenschaft bestehen: Standard-Attention berechnet Beziehungen zwischen jedem Paar von Elementen. Bei 100.000 Tokens sind das 10 Milliarden Paare. Flash Attention macht diese Berechnung schneller, GQA reduziert den Speicher, Sliding Window begrenzt den Radius - aber keine dieser Methoden ändert die grundlegende Skalierungscharakteristik für Aufgaben, die echte Long-Range-Attention erfordern.
State Space Models
State Space Models (SSMs), insbesondere Mamba, verfolgen einen deutlich anderen Ansatz: Statt alle Paarbeziehungen explizit zu berechnen, verarbeiten sie Sequenzen durch einen rekurrenten Zustand - ähnlich wie RNNs, aber mit mathematisch motivierten Mechanismen für langreichweitige Abhängigkeiten. Die Komplexität ist linear in der Sequenzlänge, was sie für sehr lange Kontexte attraktiv macht.
In der Praxis zeigen sich SSMs besonders stark bei Aufgaben, die lange Kontexte erfordern, aber wenig von der globalen Paarvergleichsfähigkeit der Attention profitieren. Bei Aufgaben, die präzises Retrieval aus dem Kontext erfordern - "Finde die Information an Position X" - bleiben Transformer überlegen.
Hybride Architekturen
Vielversprechende aktuelle Ansätze kombinieren beide Paradigmen: Lokale Verarbeitung durch SSM-Schichten, globale Verknüpfung durch gelegentliche Attention-Schichten. Modelle wie Jamba (AI21) alternieren zwischen Mamba- und Transformer-Blöcken und erreichen damit sowohl die Effizienz bei langen Kontexten als auch die Präzision bei komplexen Retrieval-Aufgaben.
Ob die Attention-Operation die finale Lösung für sequenzielle Datenverarbeitung darstellt oder durch effizientere Alternativen ergänzt wird, bleibt Gegenstand intensiver Forschung. Was feststeht: Die durch "Attention Is All You Need" eingeführten Konzepte - die Trennung in Query, Key und Value, die kompetitive Gewichtung durch Softmax, die Spezialisierung durch Multiple Heads - haben das Feld der künstlichen Intelligenz nachhaltig geprägt und werden in jeder nachfolgenden Architektur zumindest als Referenzpunkt dienen.