31. März 202611 Min. Lesezeit

Vincent WeberGründer, GeoRanks

robots.txt für AI-Crawler: Der komplette Konfigurations-Guide

14 AI-Crawler, 3 Tier-Klassen, ein vollständiger Konfigurations-Guide: So steuern Sie den Zugang aller relevanten Bots per robots.txt – inklusive Cloudflare-Fallstricke und curl-Tests.

Was ist die robots.txt und warum ist sie für AI-Crawler entscheidend?

Die robots.txt ist eine Textdatei im Wurzelverzeichnis einer Website (erreichbar unter https://ihre-domain.de/robots.txt), die Suchmaschinen- und AI-Crawlern mitteilt, welche Bereiche einer Website gecrawlt werden dürfen und welche nicht. Für die GEO-Sichtbarkeit in AI-Antwortsystemen wie ChatGPT, Perplexity, Google AI Overviews und Amazons Alexa ist die robots.txt-Konfiguration eine der kritischsten technischen Maßnahmen überhaupt.

Der Grund: AI-Systeme nutzen Retrieval-Augmented Generation (RAG), um bei der Antwortgenerierung aktuelle Webinhalte einzubeziehen. Dazu betreiben sie eigene Crawler, die Websites regelmäßig indexieren. Blockiert eine robots.txt diese Crawler auch nur teilweise, fehlen die Inhalte im AI-Trainings- und Retrievalindex. Das Ergebnis: Die Website erscheint nicht als Quelle in AI-generierten Antworten – selbst wenn der Content inhaltlich hochrelevant wäre.

Laut einer Studie von Authoritas (2025) werden nur 11 % aller Domains sowohl von ChatGPT als auch von Google AI für dieselbe Suchanfrage zitiert. Ein wesentlicher Faktor für diese geringe Überschneidung ist die inkonsistente robots.txt-Konfiguration. Welche weiteren Faktoren die AI-Zitation bestimmen, erklärt der Artikel AI-Crawler blockiert? Cloudflare Bot-Schutz beheben.

Welche 14 AI-Crawler müssen berücksichtigt werden?

Die AI-Crawler-Landschaft umfasst derzeit 14 relevante User-Agents, die in 3 Tiers nach ihrer Auswirkung auf die AI-Sichtbarkeit klassifiziert werden. Die Tier-Zuordnung basiert auf der Marktdurchdringung der jeweiligen AI-Plattform, dem Zitationsvolumen und der technischen Bedeutung des Crawlers:

Tier 1 – Kritische Crawler (höchste Priorität)

Diese Crawler sind direkt an die wichtigsten AI-Antwortsysteme mit hohem Nutzeraufkommen im DACH-Raum gekoppelt. Eine Blockade hat unmittelbare negative Auswirkungen auf die AI-Sichtbarkeit:

GPTBot – OpenAI-Crawler für ChatGPT und das OpenAI-Ökosystem. GPTBot indexiert Inhalte für das Trainings- und Retrieval-System von ChatGPT. User-Agent-String: GPTBot/1.1
OAI-SearchBot – Spezialisierter OpenAI-Crawler für Echtzeit-Suche in ChatGPT Search. Seit dem Rollout von ChatGPT Search (November 2024) eigenständig aktiv. User-Agent-String: OAI-SearchBot/1.0
ChatGPT-User – Wird eingesetzt, wenn ChatGPT-Nutzer in Echtzeit URLs aufrufen oder der Chatbot aktiv Webseiten abruft. User-Agent-String: ChatGPT-User/1.0
ClaudeBot – Anthropics Crawler für Claude.ai und die API. Indexiert für das RAG-System von Claude. User-Agent-String: ClaudeBot/1.0
anthropic-ai – Zusätzlicher Anthropic-Crawler-String, parallel zu ClaudeBot eingesetzt. User-Agent-String: anthropic-ai
PerplexityBot – Crawler von Perplexity AI, einer der meistgenutzten AI-Suchmaschinen im DACH-Markt. User-Agent-String: PerplexityBot/1.0

Tier 2 – Wichtige Crawler (hohe Priorität)

Crawler mit signifikantem Einfluss auf die AI-Sichtbarkeit, teilweise von etablierten Tech-Konzernen betrieben:

Google-Extended – Googles dedizierter Crawler für AI-Training und Gemini. Unterscheidet sich von Googlebot und muss explizit berücksichtigt werden. User-Agent-String: Google-Extended
GoogleOther – Googles experimenteller Crawler für neue Produkte und Features. User-Agent-String: GoogleOther
Amazonbot – Amazons Crawler für Alexa und Amazon Bedrock (AI-Infrastruktur). User-Agent-String: Amazonbot/0.1
Applebot-Extended – Apples erweiterter Crawler für Siri und Apple Intelligence. User-Agent-String: Applebot-Extended/0.1
meta-externalagent – Metas Crawler für KI-Systeme (MetaAI, Llama-basierte Produkte). User-Agent-String: meta-externalagent/1.1

Tier 3 – Relevante Crawler (mittlere Priorität)

Crawler mit geringerem, aber nicht zu vernachlässigendem Einfluss:

CCBot – Common Crawl-Crawler, der Basisdaten für viele AI-Modelle liefert. User-Agent-String: CCBot/2.0
cohere-ai – Crawlers des AI-Unternehmens Cohere (Reranking- und Retrieval-Modelle). User-Agent-String: cohere-ai/1.0
Bytespider – ByteDances Crawler (TikTok-Mutterkonzern), relevant für AI-Produkte des Konzerns. User-Agent-String: Bytespider

Wie sieht eine optimale robots.txt-Konfiguration aus?

Eine GEO-optimierte robots.txt folgt dem Prinzip: Alle AI-Crawler explizit zulassen, kritische interne Bereiche blockieren, Sitemap und Crawl-Delay-Hinweise eintragen. Die Standardkonfiguration für eine DACH-Website:

# robots.txt – GEO-optimierte Konfiguration
# Letzte Aktualisierung: 2026-03

# ─── Allgemeine Suchmaschinen-Crawler ────────────────────────────
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /dashboard/
Disallow: /checkout/
Disallow: /account/
Disallow: /*.json$
Allow: /api/og/

# ─── Tier 1: Kritische AI-Crawler – explizit erlauben ─────────────
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: PerplexityBot
Allow: /

# ─── Tier 2: Wichtige AI-Crawler – explizit erlauben ──────────────
User-agent: Google-Extended
Allow: /

User-agent: GoogleOther
Allow: /

User-agent: Amazonbot
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: meta-externalagent
Allow: /

# ─── Tier 3: Weitere AI-Crawler – explizit erlauben ───────────────
User-agent: CCBot
Allow: /

User-agent: cohere-ai
Allow: /

User-agent: Bytespider
Allow: /

# ─── Sitemap ──────────────────────────────────────────────────────
Sitemap: https://ihre-domain.de/sitemap.xml

Wichtig: Explizite Allow: /-Direktiven für jeden AI-Crawler überschreiben restriktivere Regeln des User-agent: *-Blocks und verhindern versehentliche Blockaden.

Was sind häufige robots.txt-Fehler bei AI-Crawlern?

Fehler 1: AI-Crawler in der globalen Disallow-Liste

Der häufigste Fehler: Datenschutzbewusste Website-Betreiber blockieren alle nicht-Google-Crawler mit Disallow: / im globalen Block, vergessen aber, AI-Crawler explizit wieder freizuschalten:

# FALSCH – blockiert alle AI-Crawler
User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /
# GPTBot, ClaudeBot, PerplexityBot fehlen → alle blockiert

Fehler 2: Veraltete Allow-/Disallow-Syntax für Crawler-Namen

Manche robots.txt-Generatoren verwenden veraltete oder falsche User-Agent-Strings. GPT-Bot (mit Bindestrich) ist falsch – korrekt ist GPTBot (ohne Bindestrich). Gleiches gilt für Claude-Bot vs. ClaudeBot.

Fehler 3: Blockade von /api/-Pfaden ohne Ausnahme für OG-Bilder

Wenn Disallow: /api/ gesetzt ist, blockiert das auch /api/og/ – den Endpunkt für dynamische Open-Graph-Bilder. Diese sollten für alle Crawler erreichbar bleiben:

User-agent: *
Disallow: /api/
Allow: /api/og/

Fehler 4: Crawl-Delay-Direktiven für AI-Crawler

Einige Server-Administratoren setzen globale Crawl-Delay-Direktiven (Crawl-delay: 10), die AI-Crawler verlangsamen oder in Timeouts treiben. Für Tier-1-Crawler sollte kein Crawl-Delay gesetzt werden.

Was ist der Cloudflare Bot Fight Mode – und warum blockiert er AI-Crawler?

Dies ist die wichtigste Fallstricke für DACH-Websites, die auf Cloudflare betrieben werden: Cloudflare Bot Fight Mode blockiert AI-Crawler auf der Edge-Ebene – bevor die robots.txt überhaupt erreicht wird.

Das bedeutet: Eine perfekt konfigurierte robots.txt hilft nichts, wenn Cloudflare den Crawler-Request bereits mit HTTP 403 oder einer Challenge-Seite beantwortet. Der Crawler sieht keine robots.txt, kann keine Inhalte indexieren, und die Website bleibt für das AI-System unsichtbar.

Cloudflare bietet zwei relevante Einstellungen, die beide deaktiviert werden müssen:

Bot Fight Mode (unter Security → Bots): Blockiert "bekannte Bad Bots" – dazu zählt Cloudflare fälschlicherweise auch viele AI-Crawler wie GPTBot und ClaudeBot.
Block AI training bots (unter Security → Bots): Eine separate Einstellung, die spezifisch AI-Crawler für Training und Indexierung blockiert. Muss auf "Do not block (allow crawlers)" gesetzt werden.

Wichtig für Cloudflare Pages: Bei Cloudflare Pages ist Bot Fight Mode standardmäßig aktiviert. Bei Migration einer Website auf Cloudflare Pages immer zuerst diese Einstellungen prüfen.

Die detaillierte Anleitung zur Cloudflare-Konfiguration beschreibt der Artikel AI-Crawler blockiert? Cloudflare Bot-Schutz beheben.

Wie teste ich die robots.txt-Konfiguration mit curl?

Der zuverlässigste Test ist ein direkter HTTP-Request mit dem User-Agent des jeweiligen Crawlers. Mit dem curl-Befehl lässt sich simulieren, was ein AI-Crawler sieht:

# Tier-1-Test: GPTBot
curl -A "GPTBot/1.1" -I https://ihre-domain.de/

# Tier-1-Test: ClaudeBot
curl -A "ClaudeBot/1.0" -I https://ihre-domain.de/

# Tier-1-Test: PerplexityBot
curl -A "PerplexityBot/1.0" -I https://ihre-domain.de/

# Tier-2-Test: Google-Extended
curl -A "Google-Extended" -I https://ihre-domain.de/

# Tier-2-Test: Amazonbot
curl -A "Amazonbot/0.1" -I https://ihre-domain.de/

Auswertung der Antwort:

HTTP-Status	Bedeutung	Handlungsbedarf
200 OK	Crawler kann Seite lesen	Kein Handlungsbedarf
403 Forbidden	Cloudflare oder Server blockiert	Bot Fight Mode prüfen
429 Too Many Requests	Rate-Limiting greift	Crawl-Delay-Konfiguration anpassen
Redirect auf Captcha/Challenge	Cloudflare Challenge aktiv	Bot Fight Mode deaktivieren

Gibt curl für GPTBot HTML-Seiteninhalt zurück – erkennbar an <!DOCTYPE html> oder <html am Anfang der Response –, ist die Konfiguration korrekt. Erscheint stattdessen "Your request was blocked" oder eine Cloudflare-Fehlerseite, ist Bot Fight Mode aktiv.

Wie sollte die robots.txt für verschiedene Website-Typen konfiguriert werden?

E-Commerce-Websites

User-agent: *
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /konto/
Disallow: /suche/
Disallow: /filter/
Allow: /produkte/
Allow: /kategorien/
Allow: /blog/

User-agent: GPTBot
Allow: /
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /konto/

# (Weitere AI-Crawler analog)

Sitemap: https://ihre-domain.de/sitemap.xml

B2B-SaaS-Websites

User-agent: *
Disallow: /app/
Disallow: /dashboard/
Disallow: /api/
Allow: /api/og/
Allow: /

User-agent: GPTBot
Allow: /
Disallow: /app/
Disallow: /dashboard/
Disallow: /api/
Allow: /api/og/

# (Weitere AI-Crawler analog)

Sitemap: https://ihre-domain.de/sitemap.xml

Agentur- und Dienstleistungs-Websites

Für reine Marketing-Websites ohne Backend-Bereich ist eine vereinfachte Konfiguration ausreichend:

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Amazonbot
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: meta-externalagent
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: CCBot
Allow: /

User-agent: cohere-ai
Allow: /

User-agent: Bytespider
Allow: /

Sitemap: https://ihre-domain.de/sitemap.xml

Wie überwache ich die robots.txt langfristig?

Eine robots.txt ist kein "Set and Forget"-Artefakt. Neue AI-Crawler entstehen regelmäßig, und bestehende Konfigurationen können durch CMS-Updates, Deployment-Prozesse oder CDN-Änderungen überschrieben werden. Empfohlene Maßnahmen:

Monatliche Prüfung der robots.txt mit curl gegen alle Tier-1-Crawler
Versionskontrolle der robots.txt in Git mit Änderungsprotokoll
Monitoring-Alerts für HTTP-Statuscodes auf der Crawler-Testsuite
CMS-Plugin-Audits: WordPress-SEO-Plugins (Yoast, RankMath) überschreiben robots.txt teils automatisch
Deployment-Pipeline-Check: Nach jedem Deployment automatischen curl-Test für GPTBot ausführen

Das vollständige GEO-Audit mit robots.txt-Prüfung und 44 weiteren Checks ist über das GeoRanks-Audit-Tool verfügbar. Es analysiert alle 14 AI-Crawler und gibt konkrete Handlungsempfehlungen.

Welche robots.txt-Direktiven sind für AI-Crawler besonders relevant?

Neben Allow und Disallow gibt es weitere Direktiven, die das Crawl-Verhalten von AI-Crawlern steuern:

Crawl-delay

Die Crawl-delay-Direktive gibt an, wie viele Sekunden ein Crawler zwischen zwei Requests warten soll. Für AI-Crawler, die auf Indexierungstiefe angewiesen sind, kann ein zu hoher Wert die Indexierungsgeschwindigkeit stark reduzieren:

# Nicht empfohlen für AI-Crawler
User-agent: GPTBot
Crawl-delay: 10

# Besser: Kein Crawl-Delay für Tier-1-Crawler
User-agent: GPTBot
Allow: /

Crawl-Delay-Werte über 5 Sekunden sind für AI-Crawler problematisch, da deren Crawler-Infrastruktur für hohes Volumen optimiert ist und lange Wartezeiten als Hostility-Signal interpretiert werden können. Wenn Server-Last ein Problem darstellt, sollte eine CDN-Lösung (Cloudflare, Fastly) bevorzugt werden statt Crawl-Delay-Direktiven.

Noindex vs. Disallow

Es herrscht häufig Verwechslung zwischen Disallow in der robots.txt und dem noindex-Meta-Tag im HTML-Head. Die Unterschiede sind für AI-Crawler relevant:

Direktive	Wo	Effekt auf AI-Crawler
`Disallow: /pfad/`	robots.txt	Crawler betritt die URL nicht – Inhalt unbekannt
`<meta name="robots" content="noindex">`	HTML-Head	Crawler liest Inhalt, speichert ihn aber nicht im Index
`X-Robots-Tag: noindex`	HTTP-Header	Wie meta noindex, aber per HTTP-Header

Für AI-Sichtbarkeit ist Disallow der stärkere Ausschluss: Der Crawler liest die Seite überhaupt nicht. Noindex erlaubt das Crawlen, verhindert aber die Indexierung. Für Seiten, die in AI-Antworten zitiert werden sollen, dürfen weder Disallow noch noindex aktiv sein.

Allow-Direktiven für Unterverzeichnisse

Wenn ein übergeordnetes Verzeichnis per Disallow gesperrt ist, können einzelne Unterverzeichnisse mit Allow wieder freigegeben werden:

User-agent: *
Disallow: /api/
Allow: /api/og/
Allow: /api/schema/

User-agent: GPTBot
Disallow: /api/
Allow: /api/og/
Allow: /api/schema/

Die Spezifizität der Regel entscheidet: Allow: /api/og/ ist spezifischer als Disallow: /api/ und hat Vorrang. Dieses Prinzip gilt für alle gängigen Crawler-Implementierungen.

Welche Rolle spielt die Sitemap für AI-Crawler?

Die Sitemap ist das Gegenstück zur robots.txt: Während robots.txt Crawler von bestimmten Bereichen fernhält, zeigt die Sitemap aktiv an, welche Seiten indexiert werden sollen. Für AI-Crawler ist die Sitemap ein Effizienzwerkzeug:

Ohne Sitemap muss ein Crawler die gesamte Website durch interne Links entdecken. Seiten ohne oder mit wenigen internen Links werden möglicherweise nie gecrawlt.

Mit Sitemap erhält der Crawler eine vollständige URL-Liste inklusive lastmod-Datum (letztes Änderungsdatum). AI-Crawler können so priorisieren: Seiten mit aktuellen lastmod-Daten werden häufiger re-gecrawlt, da sie wahrscheinlich aktuellen Inhalt enthalten.

Optimale Sitemap-Einbindung in der robots.txt:

# Sitemap am Ende der robots.txt
Sitemap: https://ihre-domain.de/sitemap.xml
Sitemap: https://ihre-domain.de/sitemap-blog.xml
Sitemap: https://ihre-domain.de/sitemap-produkte.xml

Bei großen Websites mit mehreren Sitemap-Dateien (Hauptsite, Blog, Produkte) sollten alle Sitemaps in der robots.txt gelistet werden. Der Index-Sitemap-Ansatz (eine Sitemap, die auf Unter-Sitemaps verweist) ist ebenfalls kompatibel mit allen AI-Crawlern.

Wie verhält sich robots.txt bei Subdomains und Unterordnern?

Eine häufige Quelle von Konfigurationsfehlern ist die Verwechslung von Subdomains und Unterverzeichnissen. AI-Crawler behandeln Subdomains als separate Domains:

https://blog.ihre-domain.de – eigene robots.txt unter https://blog.ihre-domain.de/robots.txt erforderlich
https://ihre-domain.de/blog/ – wird von der robots.txt unter https://ihre-domain.de/robots.txt gesteuert

Für DACH-Unternehmen mit separaten Länderdomain-Varianten (domain.de, domain.at, domain.ch) muss die robots.txt-Konfiguration auf jeder Domain separat vorgenommen werden. Eine gemeinsame Konfiguration über eine übergeordnete Domain ist nicht möglich.

Welche Auswirkung hat eine fehlerhafte robots.txt auf den GEO-Score?

Im GeoRanks-Audit-System fließt die AI-Crawler-Kategorie mit 10 % in den Gesamt-GEO-Score ein. Innerhalb dieser Kategorie werden 5 Prüfungen durchgeführt: Tier-1-Crawler, Tier-2-Crawler, Tier-3-Crawler, Gesamtzugang und Cloudflare-Konfiguration. Eine vollständige Blockade aller AI-Crawler (Score 0 in dieser Kategorie) senkt den Gesamt-GEO-Score um bis zu 10 Punkte.

Schwerwiegender als der direkte Score-Effekt ist der indirekte Effekt: Wenn AI-Crawler die Website nicht indexieren können, fehlen der Website-Inhalt im Retrieval-System der AI-Plattformen komplett. Auch hervorragende Scores in anderen Kategorien (Zitierfähigkeit, Schema, Content) kommen dann nicht zur Geltung, weil die Inhalte schlicht nicht im AI-Index vorhanden sind.

Für eine vollständige Analyse aller AI-Crawler-Zugangsprobleme steht das GeoRanks-Audit-Tool zur Verfügung. Es prüft automatisch alle 14 User-Agents und gibt konkrete Konfigurationsempfehlungen.

Fazit: robots.txt-Konfiguration als GEO-Grundlage

Eine korrekt konfigurierte robots.txt ist die absolute Grundvoraussetzung für AI-Sichtbarkeit. Ohne freien Zugang für alle relevanten AI-Crawler bleibt selbst der beste Content unsichtbar. Die wichtigsten Punkte im Überblick:

14 AI-Crawler in 3 Tiers explizit per robots.txt zulassen
Cloudflare Bot Fight Mode und "Block AI training bots" deaktivieren
Monatliche curl-Tests für alle Tier-1-Crawler durchführen
robots.txt-Änderungen in der Deployment-Pipeline automatisch validieren
Sitemap in der robots.txt verlinken und mit lastmod-Daten pflegen
Subdomains separat konfigurieren – robots.txt gilt nur für ihre eigene Domain

Kostenlose Erstprüfung aller 14 AI-Crawler und 44 weiterer GEO-Faktoren: GEO-Audit starten.