Eine LLMs.txt-Datei ist ein Webstandard, der speziell für große Sprachmodelle (Large Language Models, LLMs) entwickelt wurde. Sie unterscheidet sich in Funktion und Zielsetzung von der robots.txt-Datei und der XML-Sitemap.
Die LLMs.txt-Datei folgt dem Aufbau einer Markdown-basierten Textdatei, die im Wurzelverzeichnis (root directory) einer Website abgelegt wird. Ihr Ziel ist es, KI-Systemen wie LLMs eine strukturierte Übersicht über relevante Inhalte einer Website zu geben. Anders als robots.txt oder XML-Sitemaps, die primär für Suchmaschinen-Crawler gedacht sind, richtet sich LLMs.txt an KI-Modelle, um deren Verständnis und Verarbeitung von Webinhalten zu optimieren.
Den Ursprung haben LLMs.txt Dateien im IT-Labors Answer.AI. Jeremy Howard (Gründer) erkannte die Diskrepanz der Tokenlimitierung in allen Large Language Models und der damit verbundenen Einschränkung des Kontextfensters. Derzeit ist die komplette Verarbeitung großer Webinhalten und Dokumenten noch in LLMs nicht möglich. Die Selektion von für den Kontext sinnvollen und nicht zielführenden Daten kann von den KI-Systemen nicht eigenständig vorgenommen werden. In der Praxis werden für die KI nutzlose Elemente, wie Skripte, HTML-Stile, Navigation usw. mit verarbeitet. Durch die LLMs.txt Datei können Webdeveloper ausschließlich relevante Inhalte definieren und der maschinellen Analyse zuführen.
Es existieren derzeit zwei Dokumentformen:
/llms.txt: Es handelt sich um eine kompakte, vereinfachte Zusammenstellung aller Websitedaten.
/llms-full.txt – Dieses Dokument enthält vollständige Informationen über den gesamten Content der Webressource und wird vor allem bei umfangreichen Websites verwendet.
Zielgruppe der LLMs.txt:
LLMs.txt Dokumente werden von verschiedenen Systemen genutzt, die auf große Sprachmodelle (LLMs) angewiesen sind. Diese Systeme nutzen die LLMs.txt Dateien, um die Interaktion mit Websites zu verbessern und die Verarbeitung von Webinhalten zu optimieren. Hier sind einige Beispiele für Systeme, die LLMs.txt Dokumente nutzen:
Diese Systeme profitieren von LLMs.txt, da sie so komplexe Webinhalte effizienter verarbeiten können, ohne sich mit HTML-Parsing oder JavaScript-Code auseinandersetzen zu müssen
Die Struktur einer LLMs.txt Datei folgt einem logischen, klaren Aufbau und ist wie folgt aufgebaut:
1. H1 Titel:
2. Zusammenfassung:
3. H2 Abschnitte:
4. Linklisten:
```
[Ressourcenname](URL): Kurze Beschreibung
```
5. Optionale Abschnitte:
6. Formatierung:
7. Platzierung:
Hier ist ein Beispiel für die Struktur:
```markdown
# Projektname
> Kurze Zusammenfassung des Projekts.
## Core Documentation
- [Quick Start](url): Beschreibung des Ressourcens.
- [API Reference](url): Details zur API-Dokumentation.
## Optional
- [Zusätzliche Ressourcen](url): Ergänzende Informationen.
```
Insgesamt unterstützt LLMs.txt die Zukunft der Suchmaschinenoptimierung, indem es AI-Systemen hilft, relevante Inhalte effizienter zu verarbeiten, während robots.txt und sitemap.xml weiterhin für traditionelle SEO-Zwecke verwendet werden.
In der klassischen Suchmaschinenoptimierung spielt LLMs.txt keine direkte Rolle, da es sich auf die Interaktion mit großen Sprachmodellen (LLMs) konzentriert. Traditionelle SEO-Tools wie robots.txt und sitemap.xml sind weiterhin entscheidend:
In der Generativen Engine Optimierung (GEO) gewinnt LLMs.txt an Bedeutung. Es dient als strukturierte Übersicht der wichtigsten Inhalte einer Website, die speziell für LLMs optimiert ist. Dies hilft, die Effizienz der Inhaltsverarbeitung durch LLMs zu verbessern und die Sichtbarkeit in AI-generierten Ergebnissen zu erhöhen.