Fachartikel

Diffusion Models

Diffusion Models erzeugen neue Daten durch einen überraschend einfachen Prozess — sie lernen, Rauschen schrittweise zu entfernen. Dieser Artikel erklärt den Forward- und Reverse-Prozess, die Rolle von Latent Diffusion und Cross-Attention und zeigt, warum dasselbe Prinzip von der Bildgenerierung bis zum Proteindesign funktioniert.

Die Bilder, die Systeme wie Stable Diffusion, DALL-E oder Midjourney aus Textbeschreibungen erzeugen, basieren auf einem überraschend einfachen Grundprinzip: Ein neuronales Netz lernt, Rauschen zu entfernen — und nutzt diese Fähigkeit, um aus reinem Rauschen neue Strukturen zu erschaffen. Dieser Ansatz, bekannt als Diffusion Model, hat sich seit 2020 als dominierendes Verfahren für die Bildgenerierung etabliert und findet zunehmend Anwendung in Bereichen weit jenseits der visuellen Medien. Dieser Artikel erklärt, wie Diffusion Models funktionieren, warum Latent Diffusion den Ansatz praktisch nutzbar machte und welche Rolle die Transformer-Architektur bei der Steuerung durch Text spielt.

Die Grundidee: Rauschen und Entrauschen

Generative Modelle stehen vor einer grundlegenden Herausforderung: Wie erzeugt man neue, realistische Daten — ein Bild, eine Audiosequenz, eine molekulare Struktur? Der naheliegende Ansatz, direkt vom Nichts zu einem fertigen Ergebnis zu springen, ist für neuronale Netze extrem schwierig zu lernen, weil der Raum möglicher Ausgaben riesig und die Verteilung realistischer Daten darin sehr klein ist. Diffusion Models lösen dieses Problem durch eine elegante Umkehrung: Statt zu lernen, Strukturen aus dem Nichts zu erzeugen, lernen sie, vorhandene Strukturen wiederherzustellen.

Der Prozess besteht aus zwei Richtungen. Der Forward-Prozess nimmt ein reales Datenelement — etwa ein Foto — und fügt schrittweise Rauschen hinzu, bis nur noch eine zufällige Verteilung ohne erkennbare Struktur übrig bleibt. Dieser Vorgang ist mathematisch trivial und erfordert kein Lernen. Der Reverse-Prozess kehrt diesen Vorgang um: Ausgehend von reinem Rauschen wird schrittweise Struktur hinzugefügt, bis ein realistisches Ergebnis entsteht. Diesen Umkehrprozess zu lernen, ist die eigentliche Aufgabe des neuronalen Netzes.

Eine anschauliche Analogie: Der Forward-Prozess gleicht einem Foto, das durch immer stärkere Unschärfe hindurchgeht, bis nur noch gleichförmiges Grau übrig bleibt. Der Reverse-Prozess gleicht der Fähigkeit, aus diesem Grau schrittweise ein scharfes Bild zu rekonstruieren — nicht dasselbe Bild, sondern ein neues, das den gleichen statistischen Eigenschaften folgt. Der entscheidende Punkt ist, dass jeder einzelne Schritt nur eine kleine Veränderung vornehmen muss, und kleine Veränderungen sind für neuronale Netze gut lernbar.

Der Forward-Prozess: Schrittweises Verrauschen

Der Forward-Prozess folgt einem mathematisch definierten Schema: In jedem Schritt wird dem Datenelement eine kleine Menge Gauß'sches Rauschen hinzugefügt. Die Menge des Rauschens pro Schritt wird durch einen Noise-Schedule kontrolliert — eine vordefinierte Abfolge, die festlegt, wie viel Signal in jedem Schritt erhalten bleibt und wie viel Rauschen hinzukommt. Nach genügend Schritten — typischerweise 1000 — ist die gesamte Struktur verschwunden und das Ergebnis ist nicht mehr von einer reinen Gauß-Verteilung zu unterscheiden.

xt = √(αt) × x{t-1} + √(1 - αt) × ε
wobei:
x_t     = verrauschtes Signal zum Zeitschritt t
α_t     = Noise-Schedule (bestimmt, wie viel Signal erhalten bleibt)
ε       = Gauß'sches Rauschen (zufällig gezogen)

Der Noise-Schedule bestimmt die Dynamik des Verrauschungsprozesses. Ein linearer Schedule fügt in jedem Schritt gleich viel Rauschen hinzu, während ein Cosine-Schedule anfangs langsamer und gegen Ende schneller verrauscht. Der Cosine-Schedule hat sich in der Praxis als vorteilhaft erwiesen, weil er die informationsreichen frühen Schritte — in denen grobe Strukturen noch erkennbar sind — stärker gewichtet und dem Modell damit mehr Lernmaterial für die schwierigeren Phasen der Rekonstruktion bietet.

Eine wichtige mathematische Eigenschaft vereinfacht das Training erheblich: Durch die spezielle Struktur des Gauß'schen Rauschens lässt sich das verrauschte Signal für einen beliebigen Zeitschritt t direkt aus dem Originalbild berechnen, ohne alle Zwischenschritte durchlaufen zu müssen. Diese geschlossene Form der kumulativen Rauschaddition beschleunigt das Training um Größenordnungen, da pro Trainingsschritt nur ein einziger Zeitschritt verarbeitet werden muss statt der gesamten Sequenz. Damit kann das Training effizient einen zufälligen Zeitschritt auswählen und das Modell direkt auf die Entrauschung dieses spezifischen Rauschgrads trainieren.

Der Reverse-Prozess: Lernen, Rauschen zu entfernen

Das Herzstück eines Diffusion Models ist das neuronale Netz, das den Reverse-Prozess lernt. Für jeden Rauschgrad — also für jeden Zeitschritt t — soll das Netz vorhersagen, welches Rauschen dem Signal hinzugefügt wurde. Das Training folgt einem einfachen Schema: Ein Trainingsbild wird bis zu einem zufällig gewählten Zeitschritt verrauscht, das Modell erhält das verrauschte Bild und den Zeitschritt als Eingabe, und seine Aufgabe ist es, das hinzugefügte Rauschen vorherzusagen. Der Verlust misst die Differenz zwischen dem tatsächlich hinzugefügten und dem vorhergesagten Rauschen.

Dieses Training über alle Rauschgrade hinweg lehrt das Modell eine umfassende Fähigkeit: Es lernt, wie Struktur auf verschiedenen Abstraktionsebenen aussieht. Bei hohem Rauschen — nahe am Ende des Forward-Prozesses — muss das Modell grobe Strukturen erkennen: Ist das ein Gesicht oder eine Landschaft? Bei geringem Rauschen — nahe am Originalbild — verfeinert es Details: Welche Textur hat die Haut, wie fallen die Schatten? Diese Hierarchie von grob zu fein entsteht automatisch durch das Training über verschiedene Rauschgrade.

Die Generierung neuer Daten nutzt diese gelernte Fähigkeit in umgekehrter Richtung: Ausgehend von reinem Rauschen wird in jedem Schritt das vorhergesagte Rauschen subtrahiert, was schrittweise Struktur aus dem Zufälligen hervortreten lässt. Warum viele kleine Schritte statt eines einzigen großen? Jeder einzelne Entrauschungsschritt muss nur eine kleine Korrektur vornehmen, und diese Aufgabe ist für das Netzwerk gut lernbar. Der direkte Sprung von reinem Rauschen zu einem fertigen Bild wäre hingegen eine Abbildung zwischen zwei extrem verschiedenen Verteilungen — ein Problem, das neuronale Netze nicht zuverlässig lösen können.

Aus der theoretischen Perspektive der Score-basierten generativen Modelle lernt das Netz den Gradienten der Datenverteilung — also die Richtung, in der sich ein verrauschtes Signal bewegen muss, um der Verteilung realer Daten näher zu kommen. Jeder Entrauschungsschritt folgt diesem Gradienten ein kleines Stück, bis das Ergebnis in einer Region hoher Wahrscheinlichkeit der realen Datenverteilung angekommen ist.

Das U-Net: Architektur des Entrauschungs-Netzwerks

Die Wahl der Netzwerk-Architektur für das Entrauschungsmodell ist entscheidend, da sie sowohl feine Details als auch globale Strukturen erfassen muss. Das U-Net hat sich dafür als besonders geeignet erwiesen — eine Encoder-Decoder-Architektur mit einer charakteristischen U-förmigen Struktur, die ursprünglich für medizinische Bildsegmentierung entwickelt wurde. Seine Fähigkeit, Informationen auf verschiedenen räumlichen Auflösungsebenen zu verarbeiten und zu kombinieren, macht es ideal für die schrittweise Verfeinerung verrauschter Eingaben.

Der Encoder des U-Nets komprimiert das verrauschte Eingabebild durch eine Folge von Faltungsschichten und Downsampling-Operationen auf immer kleinere räumliche Auflösungen, wobei die Anzahl der Merkmalskanäle zunimmt. Diese Kompression zwingt das Netz, die wesentlichen Strukturen des Bildes zu erfassen. Der Decoder kehrt diesen Prozess um und rekonstruiert die ursprüngliche Auflösung durch Upsampling und weitere Faltungen. Das entscheidende Merkmal des U-Nets sind die Skip-Connections zwischen Encoder und Decoder: Auf jeder Auflösungsstufe werden die Encoder-Merkmale direkt an die entsprechende Decoder-Stufe weitergeleitet. Diese Verbindungen bewahren feine räumliche Details, die bei der Komprimierung verloren gehen würden.

Zusätzlich erhält das U-Net den aktuellen Zeitschritt als Eingabe, typischerweise kodiert als Zeitschritt-Embedding nach dem Vorbild der sinusoidalen Positional Encodings aus der Transformer-Architektur. Dieses Embedding informiert das Netzwerk darüber, wie stark das aktuelle Bild verrauscht ist, was die Vorhersage des hinzugefügten Rauschens erheblich erleichtert — die Art der notwendigen Korrektur unterscheidet sich grundlegend zwischen stark verrauschten und fast sauberen Bildern.

Eine bemerkenswerte neuere Entwicklung ist der Diffusion Transformer (DiT), der das U-Net durch eine reine Transformer-Architektur ersetzt. Statt Faltungsschichten verwendet DiT Transformer-Blöcke, die auf Bildpatches arbeiten — derselbe Ansatz, der beim Vision Transformer für die Bildklassifikation entwickelt wurde. Modelle wie Stable Diffusion 3 und FLUX nutzen diese Architektur, die bei ausreichender Skalierung bessere Ergebnisse erzielt und von der gleichen Hardware-Optimierung profitiert, die für Sprachmodelle entwickelt wurde.

Latent Diffusion: Effiziente Bildgenerierung im komprimierten Raum

Die direkte Anwendung des Diffusion-Prozesses auf Pixelebene ist extrem rechenaufwändig. Ein Bild mit 512×512 Pixeln und drei Farbkanälen hat 786.432 Dimensionen — und das Entrauschungsnetz muss über viele Schritte in diesem hochdimensionalen Raum arbeiten. Latent Diffusion löst dieses Problem durch eine elegante Aufteilung des Prozesses in zwei Stufen.

In der ersten Stufe wird ein Variational Autoencoder (VAE) trainiert, der Bilder in einen niedrigdimensionalen Latent Space komprimiert und aus diesem wieder rekonstruieren kann. Der Encoder des VAE reduziert ein 512×512-Bild typischerweise auf eine 64×64-Repräsentation mit 4 Kanälen — eine Kompression um den Faktor 48. Trotz dieser erheblichen Reduktion bleibt der Latent Space semantisch reichhaltig: Ähnliche Bilder liegen nahe beieinander, und die wesentlichen visuellen Merkmale sind erhalten.

In der zweiten Stufe wird der gesamte Diffusion-Prozess — Forward und Reverse — nicht auf den Pixeln, sondern im Latent Space durchgeführt. Das U-Net oder der Diffusion Transformer arbeitet damit auf einem Raum, der etwa 50-mal kleiner ist als der Pixelraum, was den Rechenaufwand um Größenordnungen reduziert. Nach Abschluss des Reverse-Prozesses im Latent Space dekodiert der VAE-Decoder das entrauschte Latent zurück in ein vollständiges Bild.

Stable Diffusion ist das bekannteste Beispiel dieser Architektur und hat die Bildgenerierung einem breiten Publikum zugänglich gemacht — unter anderem weil die Kombination aus Latent-Space-Kompression und effizienter Diffusion die Generierung auf Consumer-Hardware ermöglicht. Die Aufteilung in VAE und Diffusion-Modell hat zudem den Vorteil, dass beide Komponenten unabhängig trainiert und verbessert werden können: Ein besserer VAE verbessert die Bildqualität, ein besseres Diffusion-Modell verbessert die generative Fähigkeit.

Steuerung durch Text: Cross-Attention und CLIP

Die Fähigkeit, Bilder aus Textbeschreibungen wie "eine Katze auf dem Mond bei Sonnenuntergang" zu generieren, erfordert eine Verbindung zwischen Sprach- und Bildverständnis. Diese Verbindung wird durch zwei Komponenten hergestellt: einen Text-Encoder, der den Prompt in eine numerische Repräsentation umwandelt, und den Cross-Attention-Mechanismus im Entrauschungsnetzwerk, der diese Repräsentation bei jedem Generierungsschritt berücksichtigt.

Der Text-Encoder basiert typischerweise auf CLIP (Contrastive Language-Image Pretraining), einem Modell, das auf Millionen von Bild-Text-Paaren trainiert wurde und Text und Bilder in einen gemeinsamen Embedding-Raum projiziert. In diesem Raum liegen Bilder und ihre passenden Textbeschreibungen nahe beieinander, während nicht zusammengehörige Paare weit voneinander entfernt sind. Der Text-Encoder wandelt den Eingabe-Prompt in eine Sequenz von Embedding-Vektoren um, die die semantische Bedeutung der Beschreibung kodieren.

Die Cross-Attention — derselbe Mechanismus, der in Encoder-Decoder-Transformern die Verbindung zwischen Eingabe und Ausgabe herstellt — integriert diese Text-Embeddings in den Entrauschungsprozess. Bei jedem Schritt des Reverse-Prozesses erzeugt das Entrauschungsnetzwerk Queries aus seinen internen Bildrepräsentationen und berechnet Attention-Gewichte gegenüber den Keys und Values des Text-Encoders. Dadurch kann das Netzwerk bei jedem Entrauschungsschritt auf die relevanten Teile der Textbeschreibung zugreifen und die Generierung entsprechend steuern.

Ein zusätzlicher Mechanismus verstärkt den Einfluss des Prompts: Classifier-Free Guidance führt jeden Entrauschungsschritt zweimal durch — einmal mit und einmal ohne Textbedingung — und verstärkt die Differenz zwischen beiden Ergebnissen. Je höher der Guidance-Scale-Parameter, desto stärker folgt das generierte Bild der Textbeschreibung, auf Kosten der Diversität. Dieser Parameter ermöglicht es, den Kompromiss zwischen Prompt-Treue und kreativer Variation fein zu steuern.

Diffusion und GANs: Zwei Wege zur Bildgenerierung

Vor der Verbreitung von Diffusion Models dominierten Generative Adversarial Networks (GANs) die Bildgenerierung. GANs nutzen ein Wettbewerbsprinzip zwischen zwei Netzwerken — einem Generator, der Bilder erzeugt, und einem Diskriminator, der echte von generierten Bildern unterscheiden soll. Durch diesen adversariellen Trainingsprozess treiben sich beide Netzwerke gegenseitig zu besserer Leistung an, wie in der Einführung in generative KI auf diesem Blog beschrieben.

Die Vorteile von Diffusion Models gegenüber GANs liegen in mehreren Bereichen. Das Training von Diffusion Models ist deutlich stabiler: GANs sind bekannt für instabiles Training, bei dem Generator und Diskriminator aus dem Gleichgewicht geraten können — ein Problem, das als Mode Collapse bekannt ist und dazu führt, dass der Generator nur noch wenige verschiedene Ausgaben produziert. Diffusion Models leiden nicht unter diesem Problem, da sie ein klar definiertes Trainingsziel verfolgen — die Vorhersage des hinzugefügten Rauschens. Darüber hinaus erzeugen Diffusion Models eine größere Vielfalt in ihren Ausgaben und lassen sich durch Cross-Attention und Guidance-Parameter präziser steuern.

Der wesentliche Vorteil von GANs bleibt die Geschwindigkeit: Ein GAN generiert ein Bild in einem einzigen Forward-Pass durch den Generator, während ein Diffusion Model viele Entrauschungsschritte benötigt — typischerweise 20 bis 50 bei optimierten Verfahren. Neuere Entwicklungen adressieren diesen Nachteil: Consistency Models lernen, den mehrstufigen Diffusion-Prozess in wenige Schritte oder sogar einen einzigen Schritt zu destillieren, und Flow Matching formuliert den Generierungsprozess als Vektorfeldschätzung, die effizientere Generierungspfade ermöglicht. Diese Ansätze nähern sich der Geschwindigkeit von GANs an, ohne deren Stabilitätsprobleme zu übernehmen.

Jenseits der Bilder: Diffusion als universelles Generierungsprinzip

Das Diffusion-Prinzip — schrittweises Entrauschen einer Zufallsverteilung — ist nicht an Pixel gebunden. Es funktioniert überall dort, wo schrittweise Verfeinerung aus einer zufälligen Startverteilung sinnvoll ist. Die Anwendungsbreite dieses Prinzips zeigt sich in einer wachsenden Zahl von Domänen.

Im Audiobereich generieren Diffusion-basierte Modelle Sprache und Musik durch Entrauschen von Audiosignalen oder deren spektraler Repräsentationen. Die schrittweise Verfeinerung ermöglicht die kontrollierte Erzeugung von Klangmerkmalen wie Tonhöhe, Klangfarbe und Rhythmus. Für Videogenerierung arbeiten Modelle wie Sora im Latent Space dreidimensionaler Repräsentationen, wobei die zusätzliche Zeitdimension den Rechenaufwand erheblich steigert, das Grundprinzip aber unverändert bleibt. Auch dreidimensionale Objekte lassen sich durch Diffusion in Punktwolken oder anderen 3D-Repräsentationen generieren.

Besonders bemerkenswert ist die Anwendung auf Proteinstrukturen, die eine Brücke zwischen KI-Forschung und Biotechnologie schlägt. Proteine sind lange Ketten von Aminosäuren, die sich in komplexe dreidimensionale Strukturen falten — die Form bestimmt die Funktion. AlphaFold hat die Vorhersage dieser Strukturen aus der Aminosäuresequenz zu einem vielbeachteten Erfolg der modernen KI gemacht. RFdiffusion geht einen Schritt weiter: Statt bestehende Strukturen vorherzusagen, nutzt es den Diffusion-Prozess, um neue Proteine mit gewünschten Eigenschaften zu entwerfen. Der Reverse-Prozess startet mit einer zufälligen Anordnung von Atomen und verfeinert diese schrittweise zu einer stabilen Proteinstruktur, die bestimmte funktionale Anforderungen erfüllt — etwa die Fähigkeit, an ein bestimmtes Zielmolekül zu binden.

Warum funktioniert Diffusion in so unterschiedlichen Domänen? Der gemeinsame Nenner ist, dass die Zieldaten — Bilder, Audio, Proteinstrukturen — komplexe, hochdimensionale Verteilungen bilden, die durch schrittweise Verfeinerung besser approximiert werden können als durch einen einzigen Generierungsschritt. Das Entrauschungsnetz muss in jeder Domäne die spezifischen Strukturen und Gesetzmäßigkeiten lernen — visuelle Kohärenz bei Bildern, physikalische Plausibilität bei Proteinen — aber das Rahmenwerk des iterativen Entrauschens bleibt dasselbe. Im Bereich des Molekül-Designs für die Medikamentenentwicklung generieren Diffusion Models bereits Wirkstoffkandidaten, die in silico auf gewünschte Eigenschaften wie Bindungsaffinität und Stabilität optimiert werden.

Fazit

Diffusion Models haben die generative KI durch ein konzeptionell einfaches Prinzip verändert: Lernen, Rauschen zu entfernen, und diese Fähigkeit nutzen, um aus Rauschen neue Strukturen zu erzeugen. Der Forward-Prozess — das schrittweise Verrauschen — ist mathematisch trivial, der Reverse-Prozess — das schrittweise Entrauschen — wird von einem neuronalen Netz gelernt. Latent Diffusion machte den Ansatz praktikabel, indem es die Berechnung in einen komprimierten Raum verlagerte, und Cross-Attention aus der Transformer-Architektur ermöglichte die präzise Steuerung der Generierung durch Text.

Die Universalität des Diffusion-Prinzips zeigt sich in seiner Anwendungsbreite: Von der Bildgenerierung über Audio und Video bis hin zum Protein- und Moleküldesign liefert dasselbe Grundprinzip die Basis für generative Systeme in fundamental unterschiedlichen Domänen. Dass ein einziges mathematisches Rahmenwerk sowohl fotorealistische Bilder als auch funktionale Proteinstrukturen erzeugen kann, unterstreicht die Allgemeinheit des zugrunde liegenden Prinzips. Die Verbindung zur Biotechnologie — wo Diffusion Models neue Proteine und Wirkstoffe entwerfen — markiert dabei einen Bereich, in dem die Konvergenz von KI-Forschung und Lebenswissenschaften besonders sichtbar wird und der in Zukunft weiter an Bedeutung gewinnen dürfte.