24. Februar 20265 Min. Lesezeit

Vincent WeberGründer, GeoRanks

AI-Crawler blockiert? So prüfen und beheben Sie Cloudflare Bot-Schutz

Cloudflare Bot Fight Mode blockiert AI-Crawler wie GPTBot und ClaudeBot unsichtbar. Diagnose und Lösung in 5 Minuten.

Das versteckte Problem: Cloudflare blockiert AI-Crawler

Cloudflare Bot Fight Mode ist eine Sicherheitsfunktion, die automatisierte Zugriffe auf Websites erkennt und blockiert. Das Problem: Bot Fight Mode blockiert auch AI-Crawler wie GPTBot (OpenAI), ClaudeBot (Anthropic) und PerplexityBot, und zwar auf der Edge-Ebene, bevor die Anfrage den Webserver oder die robots.txt-Datei erreicht. Für Website-Betreiber bedeutet das: Die Website ist für AI-Antwortsysteme unsichtbar, obwohl robots.txt den Zugang korrekt erlaubt.

Dieses Problem betrifft geschätzt Millionen von Websites, die Cloudflare als CDN oder DNS-Provider nutzen. Die Blockade erfolgt transparent, ohne Fehlermeldung im Browser und ohne Eintrag in der robots.txt. Website-Betreiber bemerken das Problem häufig erst, wenn ihre Inhalte in AI-Antworten fehlen, obwohl die SEO-Rankings stabil sind.

Die 3 Tiers der AI-Crawler

AI-Crawler lassen sich nach Bedeutung für die AI-Sichtbarkeit in 3 Tiers einteilen. Insgesamt existieren 14 relevante AI-Crawler-User-Agents, die Websites für verschiedene AI-Plattformen indexieren.

Tier 1: Kritisch (höchste Priorität)

Tier-1-Crawler repräsentieren die meistgenutzten AI-Antwortsysteme und sollten niemals blockiert werden.

GPTBot (OpenAI): Crawler für ChatGPT Search und GPT-basierte Anwendungen
ClaudeBot (Anthropic): Crawler für Claude und claude.ai
PerplexityBot (Perplexity AI): Crawler für die Perplexity-Suchmaschine

Tier 2: Wichtig (hohe Priorität)

Tier-2-Crawler indexieren für große Plattformen, die zunehmend AI-Funktionen integrieren.

Google-Extended: Googles spezieller AI-Training-Crawler (getrennt von GoogleBot)
Amazonbot: Amazons Crawler für Alexa und Amazon-basierte AI-Dienste
Applebot-Extended: Apples Crawler für Apple Intelligence und Siri

Tier 3: Relevant (Standard-Priorität)

Tier-3-Crawler bedienen spezialisierte AI-Plattformen und Training-Pipelines.

CCBot (Common Crawl): Open-Source-Crawler, dessen Daten viele AI-Modelle trainieren
Bytespider (ByteDance): Crawler für TikTok und ByteDance-AI-Produkte
FacebookBot (Meta): Crawler für Meta-AI-Produkte
Cohere-ai: Crawler für Cohere-Sprachmodelle
anthropic-ai: Anthropics zusätzlicher Research-Crawler
Diffbot: Crawler für strukturierte Datenextraktion
Timesbot: Crawler für AI-gestützte Nachrichtenaggregatoren
OAI-SearchBot: OpenAIs zusätzlicher Such-Crawler

Diagnose: Ist Ihre Website für AI-Crawler erreichbar?

Die Diagnose erfolgt mit einem einzigen Terminal-Befehl. Der curl-Befehl simuliert einen Zugriff mit dem User-Agent eines AI-Crawlers und zeigt, ob die Website den Inhalt ausliefert oder die Anfrage blockiert.

curl -A "GPTBot/1.0" https://ihre-domain.de

Ergebnis A (blockiert): Die Antwort enthält "Your request was blocked", einen Cloudflare-Challenge-Screen oder einen HTTP-403-Statuscode. In diesem Fall blockiert Cloudflare den AI-Crawler auf der Edge-Ebene.

Ergebnis B (erlaubt): Die Antwort enthält den HTML-Quellcode der Website. Der AI-Crawler kann die Seite lesen und indexieren.

Für eine vollständige Diagnose sollten alle Tier-1-Crawler getestet werden:

curl -A "GPTBot/1.0" https://ihre-domain.de
curl -A "ClaudeBot/1.0" https://ihre-domain.de
curl -A "PerplexityBot/1.0" https://ihre-domain.de

Wenn mindestens einer der Tier-1-Crawler blockiert wird, besteht akuter Handlungsbedarf.

Lösung: Cloudflare-Einstellungen korrigieren

Die Behebung der AI-Crawler-Blockade erfordert zwei Änderungen im Cloudflare-Dashboard. Beide Einstellungen befinden sich unter Security > Bots.

Schritt 1: Bot Fight Mode deaktivieren

Bot Fight Mode erkennt automatisierten Traffic anhand von Browser-Fingerprinting, IP-Reputation und Verhaltensanalyse. AI-Crawler werden als Bots klassifiziert und blockiert, unabhängig von der robots.txt-Konfiguration.

Navigation: Cloudflare Dashboard > Domain auswählen > Security > Bots > Bot Fight Mode > OFF

Schritt 2: AI-Training-Bots erlauben

Die Einstellung "Block AI training bots" blockiert zusätzlich Crawler, die explizit als AI-Training-Bots identifiziert werden. Diese Einstellung muss auf "Do not block (allow crawlers)" gesetzt werden.

Navigation: Cloudflare Dashboard > Domain auswählen > Security > Bots > Block AI training bots > "Do not block (allow crawlers)"

Schritt 3: Verifizierung

Nach der Änderung die Diagnose wiederholen:

curl -A "GPTBot/1.0" https://ihre-domain.de

Die Antwort sollte nun den HTML-Quellcode der Website enthalten, nicht einen Cloudflare-Block.

robots.txt: Best Practices für AI-Crawler

Nach der Korrektur der Cloudflare-Einstellungen steuert die robots.txt den Zugang für AI-Crawler auf Webserver-Ebene. Eine GEO-optimierte robots.txt erlaubt allen relevanten AI-Crawlern den Zugang zu den Inhalten.

# AI-Crawler - Zugang erlauben
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Amazonbot
Allow: /

User-agent: CCBot
Allow: /

# Sitemap
Sitemap: https://ihre-domain.de/sitemap.xml

Die robots.txt-Datei muss im Stammverzeichnis der Domain unter /robots.txt erreichbar sein. Cloudflare bezeichnet die robots.txt-Verwaltung intern als "Content Signals Policy".

Wichtig: Die robots.txt kontrolliert nur den Zugang auf Webserver-Ebene. Wenn Cloudflare Bot Fight Mode aktiv ist, erreichen AI-Crawler die robots.txt-Datei gar nicht erst, weil die Blockade auf der Edge-Ebene davor stattfindet. Deshalb müssen immer beide Ebenen korrekt konfiguriert werden: Cloudflare-Einstellungen und robots.txt.

Häufige Fehlerquellen und Lösungen

Drei häufige Probleme treten auch nach der Korrektur der Cloudflare-Einstellungen auf.

Firewall-Regeln überschreiben Bot-Einstellungen. Individuelle Cloudflare-Firewall-Regeln können AI-Crawler trotz deaktiviertem Bot Fight Mode blockieren. Unter Security > WAF > Custom Rules prüfen, ob Regeln existieren, die User-Agents von AI-Crawlern erfassen.

Rate-Limiting greift zu aggressiv. Cloudflare Rate-Limiting kann AI-Crawler bei zu häufigen Anfragen blockieren. Die Rate-Limits unter Security > WAF > Rate Limiting sollten für bekannte AI-Crawler-IP-Bereiche gelockert werden.

Managed Rules blockieren Bots. Cloudflare Managed Rules enthalten vorkonfigurierte Bot-Erkennungsregeln. Unter Security > WAF > Managed Rules prüfen, ob Bot-bezogene Regeln aktiv sind und AI-Crawler betreffen.

FAQ

Ist es sicher, Bot Fight Mode zu deaktivieren?

Das Deaktivieren von Bot Fight Mode erhöht die Angriffsfläche für bösartige Bots nicht wesentlich, wenn die Web Application Firewall (WAF) aktiv bleibt. Die WAF schützt vor SQL-Injection, XSS und anderen Angriffen unabhängig vom Bot Fight Mode. Unternehmen, die beide Schutzebenen beibehalten möchten, können statt der vollständigen Deaktivierung eine Firewall-Regel erstellen, die AI-Crawler-User-Agents explizit erlaubt.

Muss die Konfiguration für jede Cloudflare-Domain einzeln vorgenommen werden?

Die Cloudflare-Einstellungen für Bot Fight Mode und "Block AI training bots" gelten pro Domain. Jede Domain im Cloudflare-Dashboard muss einzeln konfiguriert werden. Bei Unternehmen mit mehreren Domains (z. B. Hauptdomain und länderspezifische Varianten) müssen die Einstellungen für jede Domain separat vorgenommen werden.

Wie schnell wirkt die Änderung?

Die Cloudflare-Einstellungen wirken sofort nach dem Speichern. AI-Crawler können die Website innerhalb von Minuten erreichen. Die Indexierung durch AI-Systeme dauert jedoch typischerweise 1-4 Wochen, abhängig von der Crawl-Frequenz des jeweiligen AI-Crawlers. GPTBot und PerplexityBot crawlen häufiger als Tier-3-Crawler.