25. März 20267 Min. Lesezeit

Vincent WeberGründer, GeoRanks

SearchGPT und Perplexity: Wie AI-Suchmaschinen Quellen auswählen

Wie entscheiden SearchGPT und Perplexity, welche Quellen zitiert werden? Ein Deep-Dive in RAG-Pipelines, Ranking-Signale und was DACH-Unternehmen konkret tun können, um zitiert zu werden.

Wie funktionieren AI-Suchmaschinen auf technischer Ebene?

SearchGPT (OpenAIs Suchprodukt, seit 2025 in ChatGPT integriert) und Perplexity.ai arbeiten nach demselben Grundprinzip: Retrieval-Augmented Generation (RAG). Der Prozess läuft in drei Phasen ab:

Retrieval: Die Suchanfrage wird über eine Suchmaschinen-API (Bing bei ChatGPT/SearchGPT, eigener Index bei Perplexity) gegen den Webindex abgeglichen. Zurückgeliefert werden die n relevantesten Seiten – in der Regel 5–20 Kandidaten.
Augmentation: Der Inhalt der gefundenen Seiten wird extrahiert und als Kontext in den Prompt des Sprachmodells eingebettet. Das LLM „sieht" also nicht das offene Web, sondern die vorverdauten Texte der Retrieval-Phase.
Generation: Das LLM generiert eine Antwort auf Basis des bereitgestellten Kontexts und zitiert dabei jene Quellen, aus denen es relevante Informationen extrahiert hat.

Für Website-Betreiber bedeutet das: Es reicht nicht, gut zu ranken (Retrieval-Phase). Die Inhalte müssen auch in der Augmentation-Phase als hochwertig erkannt und in der Generation-Phase tatsächlich genutzt werden. Alle drei Phasen haben unterschiedliche Optimierungsanforderungen. Die strategischen Grundlagen erklärt der Artikel AI-Plattformen im Vergleich: ChatGPT, Perplexity, Google AI, Copilot.

Wie wählt Perplexity Quellen aus?

Perplexity.ai betreibt einen eigenen Web-Crawler namens PerplexityBot. Dieser crawlt Seiten unabhängig von Bing oder Google und bildet einen eigenständigen Index. Die Quellenauswahl bei Perplexity erfolgt in mehreren Stufen:

Stufe 1: Crawler-Zugang

PerplexityBot muss physisch auf die Seite zugreifen können. Seiten, die den Bot per robots.txt blockieren oder hinter Cloudflare Bot Fight Mode versteckt sind, werden gar nicht indexiert. Häufiger Fehler im DACH-Raum: Cloudflare-Einstellungen, die AI-Crawler pauschal blockieren, obwohl robots.txt keinen Ausschluss vorsieht.

Stufe 2: Retrieval-Ranking

Perplexity gewichtet bei der Retrieval-Phase u.a.:

Domain-Autorität: Externe Verlinkungen aus thematisch relevanten Quellen
Frische: Kürzlich aktualisierte Seiten (dateModified in Schema)
Sprachliche Relevanz: Exakte semantische Übereinstimmung mit der Suchanfrage, nicht nur Keyword-Matching
Entitätskohärenz: Ob die Domain in Wissensgraphen und Verzeichnissen einheitlich repräsentiert ist

Stufe 3: Passage-Extraktion und Zitierbarkeit

In der Augmentation-Phase extrahiert Perplexity Passagen aus den gefundenen Seiten. Passagen mit folgenden Eigenschaften werden bevorzugt genutzt:

Direkte Antwort auf eine W-Frage im ersten Satz
Statistiken und konkrete Zahlen (steigern Zitationsrate ~40 %, Princeton University, Zhang et al., 2024)
Eigenständigkeit: Die Passage ergibt ohne Kontext Sinn
Korrekte HTML-Semantik: Inhalte in <p>, <article> oder <section> statt in JavaScript-rendered Divs

Stufe 4: Vertrauens-Scoring

Perplexity gewichtet Quellen auch nach Vertrauen. Faktoren:

HTTPS (Pflichtbedingung)
Übereinstimmung von Schema-Daten und sichtbarem Content (Inkonsistenzen werden als negatives Signal gewertet)
Aktuelle externe Verlinkungen auf die Domain
Vorhandensein von Autorenangaben und Quellenverweisen im Text

Weitere Details zur Zitierfähigkeit finden sich im Artikel Zitierfähigkeit: So werden Ihre Inhalte von KI zitiert.

Wie unterscheidet sich SearchGPT (ChatGPT Search) von Perplexity?

SearchGPT ist OpenAIs Integration von Echtzeit-Websuche in ChatGPT. Im Gegensatz zu Perplexity nutzt SearchGPT primär den Bing-Index als Retrieval-Backend. Das hat konkrete Unterschiede:

Merkmal	Perplexity	SearchGPT (ChatGPT)
Crawler	PerplexityBot (eigen)	GPTBot + Bing-Index
Retrieval-Backend	Eigener Index	Bing API
Anzahl Quellen	5–8 pro Antwort	3–6 pro Antwort
Quellentypen	Diverse (auch Nischenquellen)	Bing-Top-Rankings bevorzugt
DACH-Relevanz	Wächst stark	Hängt von Bing DACH-Index ab
Update-Frequenz	Hoch (eigener Crawler)	Abhängig von Bing-Crawl-Rate
Zitationsstil	Inline mit Nummerierung	Fußnotenformat

Für DACH-Unternehmen bedeutet das: Perplexity bietet potenziell mehr Chancen für spezialisierte, tiefe Inhalte, die nicht unbedingt Bing-Top-10 sind. SearchGPT bevorzugt dagegen etablierte Domains, die bereits stark im Bing-Index vertreten sind.

Was macht Inhalte bei AI-Suchmaschinen zitierbar?

Auf Basis der RAG-Logik und empirischer GEO-Forschung lassen sich klare Zitierbarkeits-Faktoren ableiten:

Faktor 1: Answer-First-Struktur

AI-Systeme extrahieren bevorzugt Passagen, die eine Frage vollständig im ersten Satz beantworten. Das sogenannte Inverted-Pyramid-Prinzip aus dem Journalismus – wichtigste Information zuerst – ist der effektivste strukturelle Eingriff.

Beispiel: Anstatt „In diesem Artikel erklären wir, was eine GmbH ist und wie sie gegründet wird..." besser: „Eine GmbH (Gesellschaft mit beschränkter Haftung) ist eine Kapitalgesellschaft nach deutschem Recht, die mit einem Mindeststammkapital von 25.000 Euro gegründet werden kann..."

Faktor 2: Statistische Evidenz

Konkrete Zahlen, Prozentangaben und datierte Statistiken erhöhen die Zitationswahrscheinlichkeit messbar. Wichtig: Die Quelle der Statistik muss im Text klar benannt sein. AI-Systeme präferieren belegbare Aussagen gegenüber unbelegten Behauptungen.

Faktor 3: Passagen-Eigenständigkeit

Jede H2-Sektion sollte ohne Kenntnis der umgebenden Seite verständlich sein. Konkret: Pronomen wie „er", „sie", „das" vermeiden, wenn sich die Referenz nicht innerhalb der Passage befindet. Entitätsnamen (Firmennamen, Produktnamen, Ortsnamen) in jeder Passage wiederholen.

Faktor 4: Maschinenlesbare Struktur

Perplexity und SearchGPT extrahieren Inhalte aus dem geparsten HTML. Seiten, die Inhalte ausschließlich per JavaScript rendern (client-side only), werden oft mit leerem Textinhalt gecrawlt. Server-Side Rendering (SSR) ist keine optionale Optimierung, sondern Grundvoraussetzung.

Faktor 5: Schema und Entitätsverankerung

Organization JSON-LD mit vollständigen sameAs-Links verankert ein Unternehmen in Wissensgraphen. SearchGPT und Perplexity nutzen diese Daten, um Entitäten über verschiedene Quellen hinweg zu identifizieren und zu vertrauen. Eine Kanzlei mit identischen NAP-Daten auf Xing, Gelbe Seiten, ProvenExpert und der eigenen Website wird als kohärente Entität eingestuft.

Konkrete DACH-Beispiele: Was zitiert wird und was nicht

Beispiel 1: Steuerberatungskanzlei in München

Suchanfrage: „Ist eine GmbH oder UG für mein Startup besser?"

Zitiert wird: Eine Seite, die in den ersten 150 Wörtern die direkten Unterschiede zwischen GmbH und UG in einer Tabelle darstellt, aktuelles Stammkapital nennt (GmbH: 25.000 €, UG: ab 1 €), und dabei Organization Schema der Kanzlei eingebettet hat.

Nicht zitiert: Eine Seite, die nach 500 Wörtern allgemeiner Einleitung auf die Unterschiede eingeht, kein Schema enthält und deren Inhalte per JavaScript gerendert werden.

Beispiel 2: SaaS-Anbieter für Buchhaltung (D-A-CH)

Suchanfrage: „Beste Buchhaltungssoftware für Freelancer Deutschland"

Zitiert wird: Seiten mit konkreten Preisangaben, einem Vergleich der Features in Tabellenform, aktuell datiertem Inhalt (dateModified im Schema) und mindestens 3 externen Quellenlinks (z.B. zu Steuerbehörden oder Verbraucherzentralen).

Nicht zitiert: Seiten ohne Preisangaben, veraltetes Aktualisierungsdatum, kein Schema.

Beispiel 3: Unternehmensberatung in Zürich (DACH-Bereich Schweiz)

Perplexity unterscheidet sprachlich zwischen DE, AT und CH-Deutsch. Inhalte mit Helvetismen (z.B. „Mehrwertsteuer" → in der Schweiz „MWST") und lokalem Schema (PostalAddress mit countryCode CH) werden für Schweizer Suchanfragen bevorzugt.

Wie optimiert man systematisch für beide Plattformen?

Da SearchGPT und Perplexity unterschiedliche Retrieval-Backends nutzen, aber ähnliche Qualitätssignale bewerten, ist eine kombinierte Optimierungsstrategie sinnvoll:

Kurzfristig (1–4 Wochen):

robots.txt prüfen: GPTBot und PerplexityBot müssen explizit zugelassen sein (oder nicht explizit geblockt)
Server-Side Rendering verifizieren: curl -A "GPTBot/1.0" https://domain.de muss vollständigen HTML-Content zurückgeben
FAQPage-Schema auf allen relevanten Seiten implementieren
Inhalte der Top-10-Seiten auf Answer-First-Struktur umschreiben

Mittelfristig (1–3 Monate):

Entitätsverankerung: NAP-Konsistenz in allen DACH-Verzeichnissen herstellen
Autorenzuschreibungen in JSON-LD und sichtbar im Content implementieren
Content-Tiefe erhöhen: Statt 5 flachen Artikeln 1 erschöpfender Artikel mit Statistiken, Tabellen, FAQ
llms.txt erstellen für maschinenlesbare Unternehmens-Zusammenfassung

Langfristig (Daueraufgabe):

Monitoring der AI-Zitation mit spezialisierten Tools (Authoritas, SE Ranking, Perplexity Watch)
Aktualisierungszyklen: dateModified mindestens quartalsweise erneuern
Thematische Autorität aufbauen: Systematisch alle Kernthemen mit eigenständigen, tiefen Artikeln abdecken

Der GeoRanks GEO-Audit prüft alle technischen und inhaltlichen Faktoren automatisiert: Jetzt kostenfrei auditieren.

Fazit: Quellen werden nicht zufällig ausgewählt

SearchGPT und Perplexity folgen einer klaren RAG-Logik: Wer gecrawlt werden kann, im Retrieval erscheint und in der Augmentation-Phase eigenständige, statistisch belegte Passagen liefert, wird zitiert. Wer einen dieser drei Schritte nicht erfüllt, bleibt unsichtbar – unabhängig von klassischen SEO-Rankings. Für DACH-Unternehmen liegt darin eine messbare Chance: Die Optimierung für AI-Zitation ist technisch definiert, strukturiert umsetzbar und liefert nachweisbare Ergebnisse.