Crawler

18. August 2021SEMBOX GmbHAllgemein

Ein Crawler – auch Webcrawler, Spider, Searchbot oder Robot genannt – ist ein automatisiertes Computerprogramm, welches das Internet systematisch absucht, damit gefundene Webseiten analysiert und später in den Suchmaschinen-Index aufgenommen werden können.

Man kann sich das World Wide Web wie ein gigantisches Schienennetz vorstellen, auf dem die Links die Gleise bilden. Der Crawler fährt diese Gleise ununterbrochen ab. Er startet bei einer bekannten Webseite, liest deren Inhalt aus und folgt anschliessend allen dort hinterlegten internen und externen Hyperlinks. Auf diese Weise hangelt sich das Programm von Seite zu Seite und entdeckt ständig neue oder aktualisierte Inhalte.

Der Unterschied zwischen Crawling und Indexierung

Im alltäglichen Sprachgebrauch werden die Begriffe oft vermischt, in der Suchmaschinenoptimierung (SEO) beschreiben sie jedoch zwei völlig unterschiedliche Prozesse:

Crawling (Das Entdecken): Der Crawler besucht die URL und lädt den Quellcode (HTML, CSS, JavaScript) sowie Bilder herunter.
Indexierung (Das Speichern): Erst nachdem die Seite gecrawlt und von den Systemen der Suchmaschine verarbeitet und als qualitativ hochwertig eingestuft wurde, wird sie in den gigantischen Index (die Datenbank) aufgenommen. Nur indexierte Seiten können in den Suchergebnissen (SERPs) erscheinen.

Bekannte Crawler und der Wandel durch KI

Jede Suchmaschine und viele Technologieunternehmen betreiben eigene Crawler. Die bekanntesten sind:

Googlebot: Der primäre Crawler von Google (aufgeteilt in Googlebot Desktop und Googlebot Smartphone).
Bingbot: Der Crawler von Microsoft für die Suchmaschine Bing.
KI-Scraper (z. B. GPTBot / ClaudeBot): Mit dem Aufstieg der künstlichen Intelligenz haben sich die Aufgaben von Crawlern erweitert. Bots wie der GPTBot von OpenAI durchsuchen das Netz nicht mehr primär für eine klassische Link-Suchmaschine, sondern um Sprachmodelle (LLMs) zu trainieren und aktuelle Daten für KI-Chats (wie ChatGPT oder Microsoft Copilot) zu sammeln.

Warum das Thema für Webseitenbetreiber kritisch ist

Für den Erfolg von SEO- und GEO-Massnahmen ist die „Crawlbarkeit“ einer Webseite die absolute Grundvoraussetzung. Betreiber müssen steuern, wie Bots auf ihrer Seite agieren:

Das Crawl-Budget: Suchmaschinen weisen jeder Webseite nur eine begrenzte Menge an Zeit und Ressourcen (das Crawl-Budget) zu. Ist eine Seite technisch schlecht optimiert (z. B. durch langsame Ladezeiten, doppelte Inhalte oder endlose Weiterleitungsketten), bricht der Crawler ab, bevor er alle wichtigen Seiten erfasst hat.
Steuerung via robots.txt und Meta-Tags: Über die Datei robots.txt im Root-Verzeichnis einer Webseite können Betreiber bestimmte Crawler gezielt aussperren (z. B. das KI-Scraping verbieten) oder ihnen den Zugriff auf sensible Bereiche verwehren. Das Meta-Tag noindex hingegen erlaubt zwar das Crawling, verbietet aber die anschliessende Speicherung im Index.

Crawler

Share this Story