SearchGPT und Perplexity: Wie AI-Suchmaschinen Quellen auswählen
Wie entscheiden SearchGPT und Perplexity, welche Quellen zitiert werden? Ein Deep-Dive in RAG-Pipelines, Ranking-Signale und was DACH-Unternehmen konkret tun können, um zitiert zu werden.
Wie funktionieren AI-Suchmaschinen auf technischer Ebene?
SearchGPT (OpenAIs Suchprodukt, seit 2025 in ChatGPT integriert) und Perplexity.ai arbeiten nach demselben Grundprinzip: Retrieval-Augmented Generation (RAG). Der Prozess läuft in drei Phasen ab:
-
Retrieval: Die Suchanfrage wird über eine Suchmaschinen-API (Bing bei ChatGPT/SearchGPT, eigener Index bei Perplexity) gegen den Webindex abgeglichen. Zurückgeliefert werden die n relevantesten Seiten – in der Regel 5–20 Kandidaten.
-
Augmentation: Der Inhalt der gefundenen Seiten wird extrahiert und als Kontext in den Prompt des Sprachmodells eingebettet. Das LLM „sieht" also nicht das offene Web, sondern die vorverdauten Texte der Retrieval-Phase.
-
Generation: Das LLM generiert eine Antwort auf Basis des bereitgestellten Kontexts und zitiert dabei jene Quellen, aus denen es relevante Informationen extrahiert hat.
Für Website-Betreiber bedeutet das: Es reicht nicht, gut zu ranken (Retrieval-Phase). Die Inhalte müssen auch in der Augmentation-Phase als hochwertig erkannt und in der Generation-Phase tatsächlich genutzt werden. Alle drei Phasen haben unterschiedliche Optimierungsanforderungen. Die strategischen Grundlagen erklärt der Artikel AI-Plattformen im Vergleich: ChatGPT, Perplexity, Google AI, Copilot.
Wie wählt Perplexity Quellen aus?
Perplexity.ai betreibt einen eigenen Web-Crawler namens PerplexityBot. Dieser crawlt Seiten unabhängig von Bing oder Google und bildet einen eigenständigen Index. Die Quellenauswahl bei Perplexity erfolgt in mehreren Stufen:
Stufe 1: Crawler-Zugang
PerplexityBot muss physisch auf die Seite zugreifen können. Seiten, die den Bot per robots.txt blockieren oder hinter Cloudflare Bot Fight Mode versteckt sind, werden gar nicht indexiert. Häufiger Fehler im DACH-Raum: Cloudflare-Einstellungen, die AI-Crawler pauschal blockieren, obwohl robots.txt keinen Ausschluss vorsieht.
Stufe 2: Retrieval-Ranking
Perplexity gewichtet bei der Retrieval-Phase u.a.:
- Domain-Autorität: Externe Verlinkungen aus thematisch relevanten Quellen
- Frische: Kürzlich aktualisierte Seiten (dateModified in Schema)
- Sprachliche Relevanz: Exakte semantische Übereinstimmung mit der Suchanfrage, nicht nur Keyword-Matching
- Entitätskohärenz: Ob die Domain in Wissensgraphen und Verzeichnissen einheitlich repräsentiert ist
Stufe 3: Passage-Extraktion und Zitierbarkeit
In der Augmentation-Phase extrahiert Perplexity Passagen aus den gefundenen Seiten. Passagen mit folgenden Eigenschaften werden bevorzugt genutzt:
- Direkte Antwort auf eine W-Frage im ersten Satz
- Statistiken und konkrete Zahlen (steigern Zitationsrate ~40 %, Princeton University, Zhang et al., 2024)
- Eigenständigkeit: Die Passage ergibt ohne Kontext Sinn
- Korrekte HTML-Semantik: Inhalte in
<p>,<article>oder<section>statt in JavaScript-rendered Divs
Stufe 4: Vertrauens-Scoring
Perplexity gewichtet Quellen auch nach Vertrauen. Faktoren:
- HTTPS (Pflichtbedingung)
- Übereinstimmung von Schema-Daten und sichtbarem Content (Inkonsistenzen werden als negatives Signal gewertet)
- Aktuelle externe Verlinkungen auf die Domain
- Vorhandensein von Autorenangaben und Quellenverweisen im Text
Weitere Details zur Zitierfähigkeit finden sich im Artikel Zitierfähigkeit: So werden Ihre Inhalte von KI zitiert.
Wie unterscheidet sich SearchGPT (ChatGPT Search) von Perplexity?
SearchGPT ist OpenAIs Integration von Echtzeit-Websuche in ChatGPT. Im Gegensatz zu Perplexity nutzt SearchGPT primär den Bing-Index als Retrieval-Backend. Das hat konkrete Unterschiede:
| Merkmal | Perplexity | SearchGPT (ChatGPT) |
|---|---|---|
| Crawler | PerplexityBot (eigen) | GPTBot + Bing-Index |
| Retrieval-Backend | Eigener Index | Bing API |
| Anzahl Quellen | 5–8 pro Antwort | 3–6 pro Antwort |
| Quellentypen | Diverse (auch Nischenquellen) | Bing-Top-Rankings bevorzugt |
| DACH-Relevanz | Wächst stark | Hängt von Bing DACH-Index ab |
| Update-Frequenz | Hoch (eigener Crawler) | Abhängig von Bing-Crawl-Rate |
| Zitationsstil | Inline mit Nummerierung | Fußnotenformat |
Für DACH-Unternehmen bedeutet das: Perplexity bietet potenziell mehr Chancen für spezialisierte, tiefe Inhalte, die nicht unbedingt Bing-Top-10 sind. SearchGPT bevorzugt dagegen etablierte Domains, die bereits stark im Bing-Index vertreten sind.
Was macht Inhalte bei AI-Suchmaschinen zitierbar?
Auf Basis der RAG-Logik und empirischer GEO-Forschung lassen sich klare Zitierbarkeits-Faktoren ableiten:
Faktor 1: Answer-First-Struktur
AI-Systeme extrahieren bevorzugt Passagen, die eine Frage vollständig im ersten Satz beantworten. Das sogenannte Inverted-Pyramid-Prinzip aus dem Journalismus – wichtigste Information zuerst – ist der effektivste strukturelle Eingriff.
Beispiel: Anstatt „In diesem Artikel erklären wir, was eine GmbH ist und wie sie gegründet wird..." besser: „Eine GmbH (Gesellschaft mit beschränkter Haftung) ist eine Kapitalgesellschaft nach deutschem Recht, die mit einem Mindeststammkapital von 25.000 Euro gegründet werden kann..."
Faktor 2: Statistische Evidenz
Konkrete Zahlen, Prozentangaben und datierte Statistiken erhöhen die Zitationswahrscheinlichkeit messbar. Wichtig: Die Quelle der Statistik muss im Text klar benannt sein. AI-Systeme präferieren belegbare Aussagen gegenüber unbelegten Behauptungen.
Faktor 3: Passagen-Eigenständigkeit
Jede H2-Sektion sollte ohne Kenntnis der umgebenden Seite verständlich sein. Konkret: Pronomen wie „er", „sie", „das" vermeiden, wenn sich die Referenz nicht innerhalb der Passage befindet. Entitätsnamen (Firmennamen, Produktnamen, Ortsnamen) in jeder Passage wiederholen.
Faktor 4: Maschinenlesbare Struktur
Perplexity und SearchGPT extrahieren Inhalte aus dem geparsten HTML. Seiten, die Inhalte ausschließlich per JavaScript rendern (client-side only), werden oft mit leerem Textinhalt gecrawlt. Server-Side Rendering (SSR) ist keine optionale Optimierung, sondern Grundvoraussetzung.
Faktor 5: Schema und Entitätsverankerung
Organization JSON-LD mit vollständigen sameAs-Links verankert ein Unternehmen in Wissensgraphen. SearchGPT und Perplexity nutzen diese Daten, um Entitäten über verschiedene Quellen hinweg zu identifizieren und zu vertrauen. Eine Kanzlei mit identischen NAP-Daten auf Xing, Gelbe Seiten, ProvenExpert und der eigenen Website wird als kohärente Entität eingestuft.
Konkrete DACH-Beispiele: Was zitiert wird und was nicht
Beispiel 1: Steuerberatungskanzlei in München
Suchanfrage: „Ist eine GmbH oder UG für mein Startup besser?"
Zitiert wird: Eine Seite, die in den ersten 150 Wörtern die direkten Unterschiede zwischen GmbH und UG in einer Tabelle darstellt, aktuelles Stammkapital nennt (GmbH: 25.000 €, UG: ab 1 €), und dabei Organization Schema der Kanzlei eingebettet hat.
Nicht zitiert: Eine Seite, die nach 500 Wörtern allgemeiner Einleitung auf die Unterschiede eingeht, kein Schema enthält und deren Inhalte per JavaScript gerendert werden.
Beispiel 2: SaaS-Anbieter für Buchhaltung (D-A-CH)
Suchanfrage: „Beste Buchhaltungssoftware für Freelancer Deutschland"
Zitiert wird: Seiten mit konkreten Preisangaben, einem Vergleich der Features in Tabellenform, aktuell datiertem Inhalt (dateModified im Schema) und mindestens 3 externen Quellenlinks (z.B. zu Steuerbehörden oder Verbraucherzentralen).
Nicht zitiert: Seiten ohne Preisangaben, veraltetes Aktualisierungsdatum, kein Schema.
Beispiel 3: Unternehmensberatung in Zürich (DACH-Bereich Schweiz)
Perplexity unterscheidet sprachlich zwischen DE, AT und CH-Deutsch. Inhalte mit Helvetismen (z.B. „Mehrwertsteuer" → in der Schweiz „MWST") und lokalem Schema (PostalAddress mit countryCode CH) werden für Schweizer Suchanfragen bevorzugt.
Wie optimiert man systematisch für beide Plattformen?
Da SearchGPT und Perplexity unterschiedliche Retrieval-Backends nutzen, aber ähnliche Qualitätssignale bewerten, ist eine kombinierte Optimierungsstrategie sinnvoll:
Kurzfristig (1–4 Wochen):
- robots.txt prüfen: GPTBot und PerplexityBot müssen explizit zugelassen sein (oder nicht explizit geblockt)
- Server-Side Rendering verifizieren:
curl -A "GPTBot/1.0" https://domain.demuss vollständigen HTML-Content zurückgeben - FAQPage-Schema auf allen relevanten Seiten implementieren
- Inhalte der Top-10-Seiten auf Answer-First-Struktur umschreiben
Mittelfristig (1–3 Monate):
- Entitätsverankerung: NAP-Konsistenz in allen DACH-Verzeichnissen herstellen
- Autorenzuschreibungen in JSON-LD und sichtbar im Content implementieren
- Content-Tiefe erhöhen: Statt 5 flachen Artikeln 1 erschöpfender Artikel mit Statistiken, Tabellen, FAQ
- llms.txt erstellen für maschinenlesbare Unternehmens-Zusammenfassung
Langfristig (Daueraufgabe):
- Monitoring der AI-Zitation mit spezialisierten Tools (Authoritas, SE Ranking, Perplexity Watch)
- Aktualisierungszyklen: dateModified mindestens quartalsweise erneuern
- Thematische Autorität aufbauen: Systematisch alle Kernthemen mit eigenständigen, tiefen Artikeln abdecken
Der GeoRanks GEO-Audit prüft alle technischen und inhaltlichen Faktoren automatisiert: Jetzt kostenfrei auditieren.
Fazit: Quellen werden nicht zufällig ausgewählt
SearchGPT und Perplexity folgen einer klaren RAG-Logik: Wer gecrawlt werden kann, im Retrieval erscheint und in der Augmentation-Phase eigenständige, statistisch belegte Passagen liefert, wird zitiert. Wer einen dieser drei Schritte nicht erfüllt, bleibt unsichtbar – unabhängig von klassischen SEO-Rankings. Für DACH-Unternehmen liegt darin eine messbare Chance: Die Optimierung für AI-Zitation ist technisch definiert, strukturiert umsetzbar und liefert nachweisbare Ergebnisse.