Retrieval Augmented Generation (RAG) ist ein KI-Architekturmuster, bei dem ein Large Language Model (LLM) vor der Antwortgenerierung aktiv externe Wissensquellen abfragt, um seine Ausgabe auf verifizierbaren, aktuellen Informationen zu stützen. Das Konzept wurde 2020 von Lewis et al. (Facebook AI Research) in der Forschungsarbeit "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" beschrieben. RAG trennt konzeptuell das Wissen (abrufbar aus externen Quellen) vom Sprachvermögen (im Modell parametrisch gespeichert) – eine Trennung, die für Verlässlichkeit und Aktualität von KI-Antworten entscheidend ist.
Um RAG zu verstehen, muss zunächst die strukturelle Schwäche klassischer LLMs klar sein. Sprachmodelle werden auf einem statischen Textkorpus trainiert – ihr Wissen ist damit zum Zeitpunkt des Trainings eingefroren. Was danach passiert, ist für das Modell nicht existent, es sei denn, es wird explizit im Prompt mitgegeben.
Daraus entstehen zwei konzeptuelle Kernprobleme:
LLMs haben ein Training-Enddatum – ein sogenanntes Knowledge Cutoff. Ereignisse, Fakten und Entwicklungen nach diesem Datum sind dem Modell unbekannt. Es kann sie weder abrufen noch zuverlässig einschätzen. Für alle Anwendungen, die aktuelle oder domainspezifische Informationen benötigen – Produktdaten, Rechtslage, Marktpreise, Nachrichtengeschehen – ist ein LLM ohne externe Wissensbasis strukturell ungeeignet.
Wenn ein LLM eine Frage nicht zuverlässig aus seinen Trainingsparametern beantworten kann, neigt es dazu, eine plausibel klingende Antwort zu konstruieren – auch wenn diese faktisch falsch ist. Dieses Phänomen wird als Halluzination bezeichnet. Es entsteht, weil das Modell nicht zwischen "ich weiß es" und "ich schätze es" unterscheidet, sondern stets den wahrscheinlichsten nächsten Token generiert.
RAG löst beide Probleme nicht durch Veränderung des Modells selbst, sondern durch Ergänzung seiner Eingabe: Bevor das LLM antwortet, wird relevantes, aktuelles Kontextwissen aus einer externen Quelle abgerufen und dem Prompt beigefügt.
Das Funktionsprinzip von RAG lässt sich in drei konzeptuelle Phasen gliedern – unabhängig von der konkreten technischen Implementierung:
Auf Basis der Nutzeranfrage durchsucht ein Retrieval-System externe Wissensquellen: Datenbanken, Dokumentensammlungen, Webseiten oder strukturierte Wissensgraphen. Moderne RAG-Systeme nutzen dafür Vektordatenbanken und semantische Ähnlichkeitssuche, die nicht nach exakten Stichwörtern suchen, sondern nach bedeutungsähnlichen Inhalten. Das Ergebnis ist eine Auswahl relevanter Textpassagen oder Dokumente.
Die abgerufenen Informationen werden zusammen mit der ursprünglichen Anfrage in den Kontext des LLM eingespeist. Das Modell erhält damit nicht nur die Frage, sondern auch das Wissen, das zur Beantwortung benötigt wird. Diese Anreicherung ist der zentrale Mechanismus: Das LLM muss nicht mehr aus parametrischem Gedächtnis antworten, sondern kann auf bereitgestellte, verifizierbare Fakten zurückgreifen.
Das LLM generiert seine Antwort auf Basis der augmentierten Eingabe. Da die Antwort in konkretem, extern bereitgestelltem Wissen verankert ist, spricht Google Cloud von "Grounded Generation". Halluzinationen werden nicht vollständig ausgeschlossen, aber strukturell reduziert, weil das Modell auf explizite Quellinformationen verweisen kann statt auf Musterschätzungen zurückzugreifen.
Für die Generative Engine Optimization (GEO) und das Agentic Web ist RAG das zentrale Verständniskonzept: ChatGPT mit Websuche, Perplexity, Googles AI Overviews und KI-Agenten im Agentic Web sind sämtlich RAG-Systeme oder RAG-ähnliche Architekturen. Sie crawlen Webseiten nicht um zu indexieren, sondern um Kontextwissen für die Antwortgenerierung abzurufen.
Das hat eine direkte konzeptuelle Konsequenz für Websitebetreiber: Eine Website konkurriert in einem RAG-System nicht um einen Ranking-Platz, sondern um Aufnahme in das abgerufene Kontextfenster. Die Auswahlkriterien sind andere als im klassischen SEO – semantische Relevanz, inhaltliche Präzision, strukturelle Maschinenlesbarkeit und Quellenvertrauenswürdigkeit treten in den Vordergrund.
LLMs.txt ist konzeptuell eine Antwort auf das RAG-Paradigma: Wenn KI-Systeme Websites als Retrieval-Quelle nutzen, ist die Fähigkeit einer Domain, relevante Inhalte strukturiert und priorisiert bereitzustellen, entscheidend dafür, welche Seiten in das Kontextfenster eines Agenten gelangen. LLMs.txt kommuniziert genau das: "Hier sind die Seiten, die für das Verständnis dieser Domain am relevantesten sind." – eine direkte Optimierung für RAG-basierte Crawler.
Abgrenzung verwandter Konzepte
Verwandte Glossareinträge
→ Halluzination (KI)
→ LLMs.txt
→ Generative Engine Optimization (GEO)