robots.txt

18. August 2021SEMBOX GmbHAllgemein

Die robots.txt ist eine einfache Textdatei, welche im Root-Verzeichnis (Hauptverzeichnis) des Webservers gespeichert wird. Sie legt fest, welche Bereiche und Inhalte einer Website die Crawler der Suchmaschinen, wie z.B. der Googlebot besuchen dürfen und welche für die Indexierung gesperrt sind.

Funktionsweise und Steuerung

Mithilfe des sogenannten Robots Exclusion Standard kommuniziert die Datei direkt mit den Bots. Durch einfache Befehle wie Allow (erlauben) oder Disallow (verbieten) steuern Webmaster den Zugriff. Ein klassisches Anwendungsbeispiel ist das Ausschliessen von sensiblen Bereichen wie dem Admin-Login (/wp-admin/) oder internen Suchergebnisseiten, die keinen Mehrwert für den öffentlichen Suchindex bieten.

Bedeutung für das Crawl-Budget

Besonders bei grossen Webseiten spielt die robots.txt eine entscheidende Rolle für die Effizienz. Da Suchmaschinen jeder Domain nur eine begrenzte Zeit für das Auslesen von Inhalten widmen, das sogenannte Crawl-Budget, hilft die Datei dabei, die Crawler direkt zu den wichtigsten Inhalten zu leiten. Unwichtige Verzeichnisse werden ignoriert, was die Indexierung relevanter Seiten beschleunigt.

Wichtige Einschränkung

Wichtig zu wissen: Die robots.txt ist kein sicheres Werkzeug zum Verstecken von Inhalten. Sie fungiert eher als „Bitte“ an seriöse Suchmaschinen. Zudem verhindert ein Disallow nicht zwingend, dass eine Seite in den Suchergebnissen erscheint, falls sie von extern verlinkt wird. Um eine Indexierung garantiert zu unterbinden, ist das Meta-Tag noindex die sicherere Wahl.

Eine korrekt konfigurierte robots.txt gehört zum Standard jeder technischen SEO-Optimierung. Sie sollte zudem immer einen Verweis auf die XML-Sitemap enthalten, um den Crawlern den Einstieg in die Seitenstruktur zu erleichtern.

robots.txt

Share this Story