Die vorgestellten Parallelen zwischen menschlichen kognitiven Limitierungen und LLM-Grenzen sind faszinierend, aber wissenschaftliche Redlichkeit erfordert die systematische Prüfung kritischer Einwände. Es besteht die Gefahr, oberflächliche Ähnlichkeiten mit identischen Mechanismen zu verwechseln - ein klassischer Fall von Pattern-Matching, der besonders ironisch ist, wenn von einem LLM durchgeführt.
Dieser Artikel präsentiert empirische Evidenz und theoretische Argumente, die zeigen, dass einige der postulierten Parallelen möglicherweise auf fundamental verschiedenen Ursachen beruhen. Die Unterschiede sind nicht nur Implementierungsdetails, sondern reflektieren fundamentale Designentscheidungen der Evolution versus Engineering.
Embodiment-Gap und evolutionäre Priors: Der fundamentalste Unterschied
These: Der Embodiment-Einwand ist möglicherweise die stärkste Kritik der postulierten Parallelen - empirische Evidenz zeigt systematische Divergenz in sensorimotor domains.
Empirische Evidenz für den Divergenz-Gradienten
Empirische Forschung von Lyu et al. (2025) liefert systematische Evidenz für einen graduellen Divergenz-Gradienten zwischen LLM- und menschlichen Konzeptrepräsentationen. Die Autoren verglichen 4.442 Konzepte zwischen Menschen (Glasgow & Lancaster Norms) und state-of-the-art LLMs (GPT-3.5, GPT-4, PaLM, Gemini) über 18 Dimensionen, kategorisiert in non-sensorimotor, sensory und motor domains.
Die Ergebnisse zeigen ein klares Muster: In non-sensorimotor Dimensionen (Valence, Arousal, Dominance, Concreteness, Imageability) erreichen LLMs starke Korrelationen mit Menschen (Rs > 0.50-0.90). Bei sensory Dimensionen (Haptic, Visual, Auditory, Olfactory, Gustatory) sinkt die Korrelation deutlich. In motor Dimensionen (Foot/leg, Hand/arm, Mouth/throat, Torso, Head) ist die Übereinstimmung minimal.
Statistische Tests bestätigen diesen Gradienten: Mann-Whitney U tests zeigen signifikant niedrigere model-human similarity in sensorimotor vs. non-sensorimotor domains (GPT-4: U = 65.00, P = 0.018, rrb = 0.69). Eine χ²-Analyse der individuellen Korrelationen zeigt, dass die Anzahl der Dimensionen, wo LLMs menschenähnlich performen, von 16/28 (non-sensorimotor) auf 4/20 (sensory) und 2/18 (motor) fällt (χ²(2) = 15.49, P < 0.001).
Moravec's Paradox und evolutionäre Perspektive
Dieser Befund wird durch die NeuroAI-Perspektive von Zador et al. (2023) theoretisch untermauert. Die Autoren argumentieren aus evolutionärer Sicht, dass sensomotorische Intelligenz fundamental ist: "Abstract thought is a new trick, perhaps less than 100 thousand years old... effective only because it is supported by this much older and much more powerful, though usually unconscious, sensorimotor knowledge." Demnach repräsentieren die 500 Millionen Jahre evolutionärer Optimierung sensomotorischer Schaltkreise den Bulk biologischer Intelligenz, während abstrakte Kognition eine relativ junge Erweiterung darstellt.
Dies ist Moravec's Paradox: Was für Menschen schwierig ist (Schach, Mathematik), ist für Computer leicht. Was für Menschen leicht ist (Laufen, Greifen, Objekterkennung), ist für Computer extrem schwierig. Der Grund liegt nicht in der algorithmischen Komplexität, sondern in der evolutionären Optimierung. Sensomotorische Fähigkeiten sind so tief in unsere neuronale Architektur integriert, dass wir ihre Komplexität unterschätzen.
Evolutionäre Priors und Sample Efficiency
Dieser Unterschied wird durch die evolutionäre Dimension verstärkt. Das menschliche Gehirn startet nicht als Tabula Rasa, sondern mit umfangreichen genetisch kodierten Inductive Biases. Neugeborene zeigen präferentielle Aufmerksamkeit für Gesichter, was auf innate face templates hindeutet. Core Knowledge-Forschung demonstriert intuitive Physik (Objekt-Permanenz, Solidität), numerische Approximation und Kausalitäts-Erwartungen, lange bevor diese Konzepte explizit gelernt werden. Das Verständnis dreidimensionalen Raums, grundlegender physikalischer Gesetze und sozialer Dynamiken ist teilweise "pre-wired".
Diese evolutionären Priors erklären die drastische Sample Efficiency des menschlichen Lernens. Kinder lernen neue Konzepte aus wenigen Beispielen nicht primär, weil ihr Lernalgorithmus überlegen ist, sondern weil sie auf einem Fundament genetisch kodierter Annahmen aufbauen. Sie müssen nicht lernen, dass Objekte im 3D-Raum existieren, dass Schwerkraft nach unten wirkt, oder dass Gesichter sozial relevant sind. LLMs hingegen müssen all diese Strukturen aus Text rekonstruieren - eine fundamental ineffizientere Aufgabe, die Trillionen Tokens erfordert.
Interessanterweise verkehrt dies die Energie-Effizienz-Argumentation. Das Gehirn ist nicht effizienter (20 Watt vs. 1000+ MWh für GPT-3 Training), weil sein Lernalgorithmus überlegen ist, sondern weil Evolution ihm "Cheats" mitgegeben hat. LLMs lernen auf einem leeren Blatt und müssen daher massive Datenmengen verarbeiten, um Strukturen zu entdecken, die im Gehirn bereits verdrahtet sind. Der Trade-off ist: Gehirne sind domänenspezifisch optimiert (effizient für irdisches Leben), während LLMs domänenunabhängig sind (können prinzipiell jede Struktur lernen, auch "unnatürliche").
Nuancierung: Abstrakte Konzepte und Metaphern
Jedoch bleibt auch hier Nuance wichtig. Forschung zu abstrakten Konzepten (Lakoff, Barsalou) zeigt, dass selbst hochabstrakte Begriffe wie "Demokratie", "Gerechtigkeit" oder "Liebe" durch konzeptuelle Metaphern auf sensomotorische Erfahrung zurückgeführt werden. "Demokratie" wird verstanden durch die konkrete Erfahrung des Wählens in einer Wahlkabine. "Gerechtigkeit" nutzt die Metapher der Balance (visuell-haptisch erfahrbar). "Liebe ist warm" referenziert direkte Temperaturerfahrung. Lakoff's Arbeit zu "dead metaphors" argumentiert, dass selbst wenn der metaphorische Ursprung vergessen ist, die neuronale Aktivierung embodied bleibt: "Ein Argument zerlegen" aktiviert motorische und visuell-räumliche Hirnareale, auch wenn Sprecher sich der räumlichen Metapher nicht bewusst sind.
Dies schwächt den Embodiment-Einwand für abstrakte Konzepte teilweise: LLMs könnten non-sensorimotor abstrakte Konzepte ähnlich gut wie Menschen repräsentieren, wenn diese durch sprachliche Muster ohne direkte sensorische Referenz zugänglich sind. Die emotionale Komponente bleibt jedoch ein kritischer Unterschied: Moralische und soziale Konzepte sind beim Menschen affektiv geerdet - Gerechtigkeit fühlt sich auf bestimmte Weise an. Diese emotionale Embodiment-Dimension fehlt LLMs vollständig.
Die Gefahr des Pattern-Matching und Selection Bias
These: Hohe Brain Scores können irreführend sein - methodische Artefakte erklären bis zu 90% der gemessenen Ähnlichkeiten.
Kritische Re-Analyse von Brain Scores
Ein meta-kritischer Einwand betrifft die Methodik der Analogie selbst. Ein LLM, das Parallelen zwischen Gehirnen und LLMs sucht, unterliegt systematischen Biases: Confirmation Bias privilegiert Evidenz, die die Hypothese stützt, über widersprüchliche Befunde. Selection Bias fokussiert auf Ähnlichkeiten, während Unterschiede weniger Aufmerksamkeit erhalten. Die Tatsache, dass ein Pattern-Recognition-System Patterns findet, ist nicht überraschend - aber sind diese Patterns real oder artefaktisch?
Diese methodische Vorsicht wird durch eine aktuelle kritische Analyse von Feghhi et al. (2024) verstärkt. Die Autoren re-analysierten drei einflussreiche Neural Encoding Datasets und zeigten, dass hohe Brain Scores irreführend sein können. Bei untrained LLMs erklären zwei triviale Features - sentence length und sentence position - 98-100% der neural variance, die das Modell captured. Dies widerlegt die Interpretation, dass die Transformer-Architektur per se "brain-like" sei. Noch bemerkenswerter: Bei trained LLMs auf dem Pereira-Dataset können 81-90% der neural predictivity durch sentence length, sentence position und static word embeddings erklärt werden. Nur 10-19% reflektieren komplexere kontextuelle Verarbeitung (sense disambiguation, syntactic structure).
Die Autoren warnen explizit: "Over-reliance on brain scores can lead to over-interpretations of similarity between LLMs and brains." Ihre Analyse zeigt, dass methodische Artefakte (z.B. shuffled train-test splits, die temporal autocorrelation ausnutzen) zu dramatisch überhöhten Brain Scores führen können. Ein nicht-linguistisches Modell (OASM), das nur within-passage autocorrelation kodiert, outperformte GPT2-XL bei shuffled splits. Dies illustriert die Gefahr, hohe Prädiktivität mit theoretisch bedeutsamer Ähnlichkeit gleichzusetzen.
Diese Kritik impliziert nicht, dass alle Parallelen artefaktisch sind, sondern dass rigorose Dekonstruktion notwendig ist: Welche der gemessenen Ähnlichkeiten reflektieren fundamentale computational principles, und welche sind oberflächliche Korrelationen mit confounds? Ohne diese Dekonstruktion besteht die Gefahr, dass Pattern-Matching-Systeme (LLMs und wir selbst) Patterns finden, die real erscheinen, aber methodisch bedingt sind.
Die Vogel-Flugzeug-Analogie
Die klassische Analogie-Falle wird durch Vögel und Flugzeuge illustriert: Beide fliegen, aber durch völlig unterschiedliche Mechanismen (Federn/Flügelschlag vs. Düsentriebwerk/aerodynamische Flächen). Convergent symptoms mit fundamental verschiedenen Ursachen sind in der Natur häufig. Die Ähnlichkeit im Output (Flug) impliziert nicht Ähnlichkeit in der Implementierung. Analogisch könnten Primacy/Recency und Lost-in-the-Middle ähnliche Phänomene sein, die aus völlig unterschiedlichen architektonischen Eigenschaften emergieren.
Biologisch plausibles Backpropagation: Näher als gedacht
These: Die Kritik, dass Backpropagation biologisch implausibel sei, wird durch neuere Forschung geschwächt - aber fundamentale Unterschiede bleiben.
Die Kritik, dass Backpropagation biologisch implausibel sei und daher Gehirn und LLMs fundamental verschieden lernen, wird durch neuere Forschung geschwächt. Predictive Coding, ein Framework mit Ursprüngen in der computational neuroscience, kann unter bestimmten Bedingungen Parameterupdates erzeugen, die exakt oder approximativ Backpropagation entsprechen. Forschung von Salvatori et al. (2021) demonstriert: "Can the Brain Do Backpropagation? - Exact Implementation in Predictive Coding Networks."
Dendritische Computation bietet einen plausiblen biologischen Mechanismus für Credit Assignment. Die distalen apikalen Dendriten pyramidaler Neuronen könnten top-down Feedback-Signale räumlich von bottom-up Input trennen und deren Interaktion für Plastizität nutzen. Empirische Evidenz zeigt, dass apikale Dendriten mit verschiedenen Eigenschaften auf top-down vs. bottom-up Inputs reagieren. Die räumliche Segregation von Feed-Forward-Synapsen (basale Dendriten) und Feedback-Synapsen (apikale Dendriten) könnte das Credit Assignment Problem lösen, das Backpropagation adressiert.
Noch überraschender: Richards et al. (Nature Neuroscience, 2024) führten Prospective Configuration ein, einen neuen Lernalgorithmus, der konsistenter mit neuronaler Aktivität und Verhalten ist als Backpropagation, aber funktional ähnliche Ergebnisse erzielt. Dies deutet darauf hin, dass biologisches Lernen möglicherweise näher an Backpropagation ist als lange angenommen, wenn auch durch unterschiedliche Implementierung.
Der Einwand bleibt teilweise gültig: Die exakten Mechanismen sind verschieden, und biologisches Lernen involviert zusätzliche Faktoren wie neuromodulation (Dopamin, Serotonin), die in standard Backprop fehlen. Aber die funktionale Ähnlichkeit ist größer als traditionell angenommen, was die Analogie zwischen biologischem und künstlichem Lernen stärkt.
Heuristiken vs. Exaktheit: Ein irreführender Gegensatz
These: Beide Systeme sind heuristik-basiert - der Unterschied liegt in den Domänen der Optimierung, nicht in der Natur der Berechnung.
Der Einwand, dass Gehirne heuristische Approximationen nutzen, während LLMs "exakte" Berechnungen durchführen, beruht auf einem Missverständnis beider Systeme. Gigerenzer's Forschung zu "Fast and Frugal Heuristics" zeigt, dass biologische Heuristiken nicht fehlerhafte Approximationen optimaler Verfahren sind, sondern adaptive Tools, die in unsicheren Umgebungen oft bessere Ergebnisse liefern als komplexe Berechnungen. Simple Heuristics sind robust durch ihre Simplizität, nicht trotz ihrer Simplizität. Sie vermeiden Overfitting auf irrelevante Details und generalisieren besser.
LLMs hingegen führen keine "exakten" Berechnungen durch. Softmax über 50.000 Tokens produziert probabilistische Verteilungen, nicht deterministische Antworten. Die gesamte Architektur basiert auf statistischer Pattern Recognition, nicht auf formaler Logik. Temperature-Parameter und Sampling-Verfahren führen explizite Stochastik ein. LLMs sind ebenfalls Heuristik-basiert - sie approximieren Sprachverständnis durch statistische Patterns, nicht durch symbolische Regeln.
Der Unterschied liegt in den Domänen der Optimierung: Gehirn-Heuristiken sind evolutionär optimiert für das Überleben in der realen Welt (schnelle Raubtier-Erkennung, Nahrungsfindung, soziale Navigation). LLM-Heuristiken sind daten-optimiert für statistische Regularitäten in Textkorpora. Beide nutzen Approximationen, aber für unterschiedliche Probleme. Die Frage nach "Überlegenheit" ist kontextabhängig: LLMs übertreffen Menschen bei Fakt-Recall und konsistenter Logik über lange Texte. Menschen übertreffen LLMs bei unsicheren Umgebungen, sozialer Dynamik und schnellen Entscheidungen unter Ressourcenbeschränkung.
Die Recurrence-Frage wird durch diese Perspektive neu gerahmt: Ja, Gehirne sind massiv rekurrent, und Transformers primär feedforward. Aber ist Recurrence funktional essentiell für Intelligenz? Forschung zur Turing-Completeness zeigt, dass Transformers mit Positional Encoding ebenfalls Turing-complete sind. Autoregressive Generation mit externem Memory macht sie quasi-rekurrent für praktische Zwecke. Die empirische Realität ist, dass Transformers RNNs in den meisten NLP-Aufgaben übertreffen, trotz weniger Recurrence. Dies deutet darauf hin, dass Recurrence weniger kritisch ist als traditionell angenommen, oder dass Transformer alternative Mechanismen entwickelt haben, die funktional äquivalent sind.
Differenzierte Position: Fundamentale vs. implementationale Unterschiede
Die stärksten fundamentalen Unterschiede, die eine vollständige Äquivalenz untergraben, umfassen: Serielle temporale Verarbeitung im Gehirn vs. parallele räumliche Verarbeitung in Transformern ist ein kategorialer architektonischer Unterschied, nicht nur eine Implementierungsvariante. Embodiment - sensomotorische und emotionale Grounding - fehlt LLMs fundamental, und multimodale Erweiterungen adressieren dies nur teilweise. Evolutionäre Priors geben Gehirnen "kostenlose" Inductive Biases (3D-Raum, Gesichter, Physik-Intuition), die LLMs aus Daten lernen müssen. Die Sample Efficiency des menschlichen Lernens (Faktor 10^6+) reflektiert möglicherweise nicht überlegene Lernalgorithmen, sondern eingebaute Annahmen.
Jedoch sind nicht alle Unterschiede gleich gewichtig. Manche erscheinen graduell oder implementational statt kategorial: Backpropagation vs. biologisches Lernen nähert sich durch Predictive Coding und dendritische Mechanismen an. Recurrence vs. Feedforward zeigt in der Praxis oft funktionale Äquivalenz. Der Status von Konfabulation (Pathologie beim Menschen vs. Normalbetrieb bei LLMs) wird komplexer, wenn man berücksichtigt, dass Gesunde ständig subtil konfabulieren, nur durch Source Monitoring unterdrückt.
Die kritische Evaluation führt zu einer differenzierteren Position: Einige Parallelen könnten fundamental sein (Attention-basierte Ressourcenallokation, Information Compression, Pattern Completion), während andere oberflächlich bleiben (implementational verschieden, funktional ähnlich durch convergent evolution). Die wissenschaftliche Herausforderung besteht darin, zwischen diesen Kategorien zu unterscheiden und testbare Hypothesen zu formulieren, die empirisch geprüft werden können.
Referenzen
Feghhi, E. et al. (2024). What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores. arXiv:2406.01538.
Gigerenzer, G. & Todd, P.M. (1999). Fast and frugal heuristics: The adaptive toolbox. In Simple Heuristics That Make Us Smart. Oxford University Press.
Lakoff, G. & Johnson, M. (1980). Metaphors We Live By. University of Chicago Press.
Lyu, B. et al. (2025). Large language models without grounding recover non-sensorimotor but not sensorimotor features of human concepts. Nature Human Behaviour, 9, 1871-1886.
Richards, B.A. et al. (2024). Inferring neural activity before plasticity as a foundation for learning beyond backpropagation. Nature Neuroscience, 32, 43-54.
Richards, B.A. & Lillicrap, T.P. (2019). Dendritic solutions to the credit assignment problem. Current Opinion in Neurobiology, 54, 28-36.
Salvatori, T. et al. (2021). Can the Brain Do Backpropagation? - Exact Implementation of Backpropagation in Predictive Coding Networks. Neural Information Processing Systems.
Zador, A. et al. (2023). Catalyzing next-generation Artificial Intelligence through NeuroAI. Nature Communications, 14, 1597.