Wenn du das nächste Mal einem LLM vorwirfst, dass es halluziniert, wirfst du dem menschlichen Gehirn denselben Vorwurf. Nur dass niemand das so nennt.
Diese Einsicht hat sich mir beim Vorbereiten eines Talks über Memory und State in KI-Agenten aufgedrängt — und sie hat mein Verständnis von KI-Gedächtnis und Memory-Architekturen grundlegend verändert. Was ich dort erarbeitet habe, möchte ich heute teilen: 140 Jahre Kognitionspsychologie, direkt anwendbar auf die Art, wie wir KI-Agenten mit Gedächtnis ausstatten.
Der Einstieg ist bewusst provokant. Aber er ist korrekt. Lass mich erklären, warum.
Abbildung: Von 1885 bis 2026 — Kognitionspsychologie und KI-Gedächtnis im historischen Überblick.
Bartlett: Gedächtnis ist keine Aufnahme
1932 lässt Frederic Bartlett englische Studenten eine Folklore-Geschichte der First Nations nacherzählen. Das Ergebnis ist eindeutig: Die Probanden verändern die Geschichte systematisch. Übernatürliche Elemente verschwinden, unbekannte Details werden rationalisiert, die Handlung wird in vertraute kulturelle Muster gepresst.
Bartletts Schlussfolgerung war radikal für seine Zeit:
"Remembering is not the re-excitation of innumerable fixed, lifeless and fragmentary traces. It is an imaginative reconstruction, or construction."
Bartlett (1932)
Gedächtnis ist rekonstruktiv, nicht reproduktiv. Wir speichern keine exakten Kopien von Ereignissen wie ein Aufnahmegerät. Stattdessen kodieren wir Information relativ zu bestehenden mentalen Rahmenwerken — Bartlett nennt sie Schemas — und rekonstruieren beim Abruf, wobei wir Lücken mit schematischem Wissen füllen.
Er prägte dafür den Begriff "effort after meaning": den aktiven, oft unbewussten Prozess, neue Informationen mit bestehendem Wissen zu verbinden und eine kohärente Geschichte daraus zu bauen.
Bartlett erklärt LLM-Halluzination
Warum erzähle ich dir das? Weil dieser Prozess exakt das ist, was LLMs tun — und was wir "Halluzination" nennen.
| Bartlett (Mensch) | LLM |
|---|---|
| Schema-basierte Rekonstruktion | Rekonstruktion aus statistischen Mustern |
| "Effort after meaning" — Kohärenz erzwingen | Generiert plausible Details für narrative Konsistenz |
| Verzerrung zum kulturell Vertrauten | Bevorzugt hochfrequente Trainingsmuster |
| Konfabulation bei Wissenslücken | Halluzination bei Unsicherheit |
Der entscheidende Unterschied liegt nicht im Prozess, sondern in einem einzigen fehlenden Element: Reality-Checks. Menschen haben Wahrnehmung, Sinne, Embodiment — laufende Rückkopplungsschleifen mit der physischen Welt, die unsere Rekonstruktionen kalibrieren. LLMs haben das nicht.
Halluzination ist kein mysteriöser KI-Fehler. Es ist derselbe rekonstruktive Prozess wie beim Menschen — nur ohne die Korrektiv-Mechanismen, die beim Menschen dafür sorgen, dass die meisten Konfabulationen nah genug an der Realität bleiben, um unbemerkt zu bleiben.
Diese Perspektive verändert alles. Wir können die Halluzinationsrate senken — durch bessere Grounding-Mechanismen, RAG, strukturierte Ausgaben. Aber wir können Halluzination als Prinzip wahrscheinlich nicht eliminieren. Es ist kein Bug, den man fixen kann. Es ist ein Merkmal rekonstruktiver Informationsverarbeitung.
Das Drei-Speicher-Modell: Atkinson-Shiffrin (1968)
Abbildung: Sensorisches Register, Kurzzeitgedächtnis, Langzeitgedächtnis und ihre KI-Entsprechungen.
36 Jahre nach Bartlett formalisieren Richard Atkinson und Richard Shiffrin das erste vollständige Gedächtnismodell. Ihr Multi-Store-Modell beschreibt drei sequentielle Speicher:
- Sensorisches Register — Millisekunden bis etwa 2 Sekunden, hohe Bandbreite, automatische Filterung
- Kurzzeitgedächtnis (KZG) — etwa 7 Items (plus/minus 2), ca. 20 Sekunden ohne aktives Rehearsal
- Langzeitgedächtnis (LZG) — theoretisch unbegrenzte Kapazität und Dauer
Der entscheidende Mechanismus zwischen KZG und LZG ist Rehearsal — der Kontrollprozess, durch den Information aktiv in den Langzeitspeicher überführt wird. Ohne Rehearsal geht Information verloren.
Das KI-Mapping ist direkt und fast erschreckend präzise:
| Atkinson-Shiffrin | KI-Äquivalent |
|---|---|
| Sensorisches Register | Input Buffer / Tokenizer |
| Kurzzeitgedächtnis | Context Window (begrenzt, flüchtig) |
| Langzeitgedächtnis | Persistenter Speicher (Vector DB, Fine-Tuning) |
| Rehearsal | RAG-Loops, Summarization |
MemGPT — heute bekannt als Letta — implementiert genau dieses Modell. Core Memory, Recall Memory, Archival Memory: drei Ebenen, direkt nach Atkinson-Shiffrin. Was 1968 für das menschliche Gedächtnis beschrieben wurde, steckt in einer der fortschrittlichsten KI-Memory-Architekturen von 2023.
Baddeley: Das Arbeitsgedächtnis als aktiver Workspace (1974)
Abbildung: Zentrale Exekutive koordiniert Phonologische Schleife, Visuell-räumlichen Notizblock und Episodischen Buffer — und ihr Mapping auf KI-Agenten.
1974 korrigiert Alan Baddeley Atkinson-Shiffrin in einem entscheidenden Punkt: Das Kurzzeitgedächtnis ist kein passiver Speicher — es ist ein aktiver Workspace mit einer Führungsstruktur.
Baddeleys Working-Memory-Modell beschreibt:
- Zentrale Exekutive — Das Aufmerksamkeitskontrollsystem. Sie lenkt Fokus, koordiniert Subsysteme, managed Task-Switching. Domänenübergreifend, kapazitätsbegrenzt.
- Phonologische Schleife — Verarbeitet verbale und akustische Information.
- Visuell-räumlicher Notizblock — Hält und manipuliert visuelle und räumliche Information.
- Episodischer Buffer (2000 ergänzt) — Integriert Information aus allen Subsystemen und dem Langzeitgedächtnis zu kohärenten Episoden.
Das Mapping auf KI-Agenten ist elegant:
| Baddeley | KI-Agent |
|---|---|
| Zentrale Exekutive | LLM als Orchestrator (ReAct-Loop, Chain-of-Thought) |
| Phonologische Schleife | Text-Processing-Pipeline |
| Visuell-räumlicher Notizblock | Vision Encoder (GPT-4V, CLIP) |
| Episodischer Buffer | Context Window als Integrationsraum |
Das Context Window ist nicht einfach "Speicher". Es ist Baddeleys Episodischer Buffer: der Raum, in dem RAG-Ergebnisse, System Prompt und User-Input zu einer kohärenten Repräsentation verschmelzen. Und das LLM selbst ist die Zentrale Exekutive — es koordiniert Tools als "Slave-Systeme", genau wie Baddeley es für das menschliche Gehirn beschreibt.
Tulving: Drei qualitativ verschiedene Gedächtnissysteme (1972/1985)
Endel Tulving (1927–2023) stellt die vielleicht folgenreichste Frage in der Gedächtnisforschung: Gibt es wirklich ein einheitliches Langzeitgedächtnis — oder sind es mehrere qualitativ verschiedene Systeme?
Seine Antwort, die er ab 1972 entwickelt und 1985 konsolidiert: Es sind mindestens drei:
Episodisches Gedächtnis — Persönlich erlebte Ereignisse, gebunden an Zeit und Ort. "Gestern beim Meeting hat Maria gesagt..." Tulving nennt das zugehörige Bewusstsein autonoetisch — das subjektive Gefühl, ein vergangenes Ereignis wirklich wieder zu erleben, nicht nur davon zu wissen.
Semantisches Gedächtnis — Fakten, Konzepte, Bedeutungen, losgelöst vom Lernkontext. "Paris ist die Hauptstadt Frankreichs." Das Bewusstsein ist noetisch — man weiß etwas, ohne es zu re-erleben.
Prozedurales Gedächtnis — Skills, Gewohnheiten, Routinen. Fahrradfahren, ohne nachzudenken. Das Bewusstsein ist anoetisch — man kann etwas, ohne bewusst zu wissen wie.
CoALA: Tulvings Taxonomie als KI-Architektur-Standard
Hier wird es spannend für die KI-Forschung. Das CoALA Framework (Cognitive Architectures for Language Agents, Sumers et al. 2023/2024, TMLR 2024) — entwickelt an Stanford und Princeton — übernimmt Tulvings Taxonomie direkt und ohne Umwege:
| Tulvings System | KI-Äquivalent |
|---|---|
| Episodisches Gedächtnis | Konversationslogs, Agent-Trajektorien, Interaktions-Records mit Zeitstempeln |
| Semantisches Gedächtnis | RAG-Dokumentspeicher, Wissensbasen, Fine-Tuning-Gewichte |
| Prozedurales Gedächtnis | Modellgewichte (gelernte Fähigkeiten), Tool-Use-Patterns, RLHF-Policies |
Kognitionspsychologie aus den 1970ern fließt direkt in einen KI-Architektur-Standard von 2023. Die Lücke zwischen diesen Feldern ist kleiner, als sie aussieht.
Generative Agents: Tulving in der Praxis (2023)
Abbildung: 25 KI-Agenten in einer simulierten Kleinstadt — Memory Stream, Reflection und Planning implementieren Tulvings Gedächtnismodell direkt.
Das bekannteste Beispiel für Tulving in der Praxis ist die Arbeit von Park et al. (2023): Generative Agents (UIST 2023). 25 KI-Agenten leben in einer simulierten Kleinstadt — eine Art KI-gestützte "The Sims" — mit einem vollständig ausgearbeiteten Memory-System.
Das System hat drei Komponenten, die Tulving direkt implementieren:
Memory Stream — Ein chronologisches Log aller Beobachtungen. Das ist episodisches Gedächtnis in seiner reinsten Form: zeitgebundene Ereignisse mit Kontext.
Reflection — Periodisch synthetisieren die Agenten ihre Episoden: "Was habe ich gelernt?" Aus episodischen Einträgen werden semantische Erkenntnisse. Genau der Prozess, den Tulving als episodisch-zu-semantische Konsolidierung beschreibt.
Planning — Aus Erinnerungen werden Zukunftspläne abgeleitet. Mehr dazu im nächsten Abschnitt.
Besonders interessant ist der Retrieval-Score, der bestimmt, welche Erinnerungen in einem Moment abgerufen werden:
Score = α x Recency + β x Importance + γ x Relevance
Dieser Score imitiert menschliche Gedächtnis-Zugänglichkeit: Neue Erinnerungen, wichtige Erinnerungen und gerade relevante Erinnerungen kommen leichter in den Fokus. Das Ergebnis: Emergentes soziales Verhalten. Agenten organisierten Partys, bildeten Meinungen — und erinnerten sich aneinander.
Ebbinghaus: Warum KI vergisst (1885)
Abbildung: Exponentielles Vergessen bei Mensch und KI — von Ebbinghaus 1885 bis zu modernen Catastrophic-Forgetting-Strategien.
Hermann Ebbinghaus macht sich 1885 selbst zum Versuchsgegenstand. Er lernt sinnlose Silbenreihen und misst systematisch, wie schnell er sie vergisst. Das Ergebnis ist die erste quantitative Theorie des Vergessens: Die Retention zerfällt exponentiell:
R = e^(-t/S)
Konkret: Etwa 56% der Information wird innerhalb einer Stunde vergessen, etwa 75% innerhalb von sechs Tagen. Aber jede Wiederholungssitzung "resettet" die Kurve — mit flacherem Abfall. Daraus entstand das Prinzip der Spaced Repetition, heute in jedem ernsthaften Lernprogramm implementiert.
Die KI-Parallelen sind direkt:
| Ebbinghaus-Konzept | KI-Äquivalent |
|---|---|
| Vergessenskurve | Catastrophic Forgetting — Training auf Task B zerstört Performance auf Task A |
| Context-Zerfall | "Lost in the Middle" — Tokens in der Mitte des Context Windows erhalten progressiv weniger Attention |
| Spaced Repetition | Experience Replay — periodisches Re-Training auf vergangenen Daten |
| Wichtige Erinnerungen priorisieren | EWC (Elastic Weight Consolidation) — wichtige Parameter vor Überschreibung schützen |
Ein 2025er Paper demonstriert außerdem, dass tiefe neuronale Netze quantitativ human-like Forgetting Curves aufweisen — eine direkte empirische Bestätigung der Ebbinghaus-Parallele.
Mental Time Travel: Erinnern und Planen sind dasselbe
Tulvings tiefste Einsicht kommt 1985 und wird 2002 weiter ausgearbeitet: Episodisches Gedächtnis ermöglicht mentales Zeitreisen.
- Retrospektion — sich in der Zeit zurückprojizieren, um vergangene Ereignisse wieder zu erleben
- Prospektion — sich in der Zeit vorprojizieren, um mögliche zukünftige Ereignisse vorauszuerleben
Das Entscheidende: Dieselben neuronalen Netzwerke — medialer Präfrontalkortex, Precuneus, Hippocampus — unterstützen beides. Gedächtnis und Planung teilen ein gemeinsames Substrat.
"By mentally playing and replaying past events, as well as constructing and evaluating possible future scenarios, mental time travel allows us to plan for the future in uniquely flexible ways."
Suddendorf & Corballis (2007)
Abbildung: Erinnern und Planen nutzen dieselben neuronalen Netzwerke — und beim LLM denselben Mechanismus.
Für KI-Agenten ist das unmittelbar relevant. Dasselbe LLM, das vergangene Erfahrungen zusammenfasst ("Was ist beim letzten Versuch schiefgegangen?"), generiert auch Zukunftspläne ("Welche Schritte sollte ich als nächstes tun?"). Der Mechanismus ist identisch — nur anders konditioniert.
Wenn ein Agent "plant", erinnert er sich an eine Zukunft, die noch nicht passiert ist. Das ist kein philosophisches Gedankenspiel. Es erklärt, warum Reflexion und Planning in Agent-Architekturen so eng verbunden sind und warum sich dieser Ansatz so natürlich anfühlt: Er greift auf denselben Mechanismus zurück, den das menschliche Gehirn seit Jahrtausenden nutzt.
Das Drei-Komponenten-System der Generative Agents — Memory Stream, Reflection, Planning — ist damit vollständig durch Tulving erklärt: Retrospektion wird zu Reflexion, Prospektion wird zu Planning.
Was die Psychologie noch lehren kann
Abbildung: Von Bartlett bis Tulving (Mental Time Travel) — sechs kognitive Modelle und ihre direkten KI-Entsprechungen.
Viel Kognitionsforschung ist bereits in KI-Architekturen eingeflossen. Aber es gibt ungenutztes Potenzial, das mich fasziniert:
Emotionale Salienz — Emotionale Erinnerungen werden stärker und dauerhafter gespeichert. Könnten Wichtigkeits-gewichtete Memory-Systeme für Agenten ähnlich funktionieren? Der Retrieval-Score der Generative Agents hat einen Importance-Faktor — aber was "wichtig" ist, wird noch relativ simpel bestimmt.
Schlafkonsolidierung — Im Schlaf reorganisiert das Gehirn Erinnerungen: stärkt wichtige, bereinigt Redundantes, verknüpft Zusammenhängendes. Könnten Agenten zwischen Sessions eine analoge Offline-Reorganisation durchführen? Das A-MEM Paper aus 2025 (Zettelkasten-Methode) geht in diese Richtung.
Prospektives Gedächtnis — "Vergiss nicht, morgen X zu tun." Menschen sind gut darin, sich selbst zeitgebundene Erinnerungen zu setzen. Timer-basierte Memory-Trigger für Agenten wären eine direkte Umsetzung.
Soziales Gedächtnis — Wir erinnern anders in Gruppen: als Teil eines kollektiven Gedächtnisses, mit geteilten Referenzpunkten und verteilter Erinnerungsarbeit. Wie würden Multi-Agent-Systeme als Gruppe erinnern?
Die Mapping-Tabelle
Bevor wir zu den offenen Fragen kommen, ein Überblick über alles bisher Erarbeitete:
| Kognitives Modell | Jahr | Core Insight | KI-Architektur |
|---|---|---|---|
| Bartlett | 1932 | Rekonstruktiv, nicht reproduktiv | Halluzination = Konfabulation |
| Atkinson-Shiffrin | 1968 | Drei sequentielle Speicher | MemGPT: Core/Recall/Archival |
| Baddeley | 1974 | Aktiver Workspace + Exekutive | LLM als Orchestrator + Context Window |
| Tulving | 1972 | Episodisch/Semantisch/Prozedural | CoALA: 3 Memory-Typen für Agents |
| Ebbinghaus | 1885 | Exponentielles Vergessen | Catastrophic Forgetting, EWC |
| Tulving | 1985 | Mental Time Travel | Reflexion = Planning |
Mehr als 90 Jahre Kognitionsforschung — direkt anwendbar auf KI-Architekturen, die heute in Produktion laufen.
Offene Fragen
Die spannenden Fragen sind die, die die Kognitionsforschung selbst noch nicht abschließend beantwortet hat:
Brauchen wir echtes Bewusstsein für echtes Gedächtnis? Tulving sagt, echtes episodisches Gedächtnis setzt autonoetisches Bewusstsein voraus — das Selbst-Gewahrsein, das das Wiedererinnern von bloßem Fakten-Wissen unterscheidet. LLMs haben kein Selbst-Bewusstsein. Haben sie damit per Definition kein echtes episodisches Gedächtnis — oder reicht funktionales Gedächtnis, das dieselben Aufgaben erfüllt?
Ist Halluzination lösbar — oder inhärent? Wenn Bartlett recht hat und Memory fundamental rekonstruktiv ist, dann ist Konfabulation kein Bug. Können wir nur die Rate senken, aber nie auf null? Das hätte praktische Konsequenzen dafür, wie wir KI-Systeme designen und welche Vertrauensannahmen wir treffen.
Wer kontrolliert das Gedächtnis? Self-Managed Memory — der Agent entscheidet selbst, was er sich merkt — ist die Richtung, in die sich die Forschung bewegt. MemGPT hat das eingeläutet. Aber das wirft sofort ethische Fragen auf: Consent, Transparenz, Right to be Forgotten. Brauchen wir "Gedächtnis-Governance" für KI-Systeme?
Emergiert Metacognition aus Memory? Wenn ein Agent über seine eigenen Erinnerungen reflektiert — ist das nicht der Beginn von Metacognition? Das wäre die nächste Stufe: KI, die nicht nur ein Gedächtnis hat, sondern ihr eigenes Gedächtnis bewertet und versteht.
Fazit: 140 Jahre als Design-Ressource
Die Kognitionspsychologie ist keine historische Kuriosität. Sie ist eine direkt nutzbare Design-Ressource für KI-Architekturen.
Bartlett (1932) erklärt, warum Halluzination inhärent ist. Atkinson-Shiffrin (1968) steckt in MemGPT. Baddeley (1974) beschreibt, warum das LLM als Orchestrator funktioniert. Tulving (1972/1985) definiert die Memory-Typen, die CoALA als Architektur-Standard implementiert. Ebbinghaus (1885) erklärt Catastrophic Forgetting und zeigt, warum Experience Replay funktioniert.
Wer diese Muster versteht, trifft bessere Architekturentscheidungen. Nicht weil die KI-Forschung bewusst Psychologie kopiert — sondern weil gute Lösungen für das Gedächtnisproblem offenbar eine tiefe Konvergenz aufweisen, egal ob sie in einem biologischen oder einem digitalen System implementiert werden.
Eine Frage zum Mitnehmen: Verändert die Bartlett-Perspektive dein Verständnis von Halluzination — und wenn ja, was bedeutet das für die Systeme, die du baust oder nutzt?
Weiterführende Quellen
- Bartlett, F.C. (1932). Remembering: A Study in Experimental and Social Psychology. Cambridge University Press.
- Atkinson, R.C. & Shiffrin, R.M. (1968). "Human Memory: A Proposed System and Its Control Processes." The Psychology of Learning and Motivation, Vol. 2.
- Baddeley, A.D. & Hitch, G. (1974). "Working Memory." The Psychology of Learning and Motivation, Vol. 8.
- Tulving, E. (1972). "Episodic and Semantic Memory." In Organization of Memory.
- Tulving, E. (1985). "How Many Memory Systems Are There?" American Psychologist.
- Ebbinghaus, H. (1885). Über das Gedächtnis. Duncker & Humblot.
- Suddendorf, T. & Corballis, M.C. (2007). "Mental Time Travel and the Shaping of the Human Mind." PNAS.
- Sumers, T.R. et al. (2023/2024). "Cognitive Architectures for Language Agents." arXiv:2309.02427. TMLR 2024.
- Park, J.S. et al. (2023). "Generative Agents: Interactive Simulacra of Human Behavior." arXiv:2304.03442. UIST 2023.
- Hu, Y. et al. (2025). "Memory in the Age of AI Agents: A Survey." arXiv:2512.13564.
Dieser Artikel erschien ursprünglich auf dem Mayflower Blog.

