Technisches SEO: robots.txt und Meta-Robots-Tags

Immer wieder sehen wir bei neuen Kunden, dass deren Webseiten den Suchmaschinen das Crawlen und die Indizierung ihrer Webseite in unbeabsichtigter Weise ganz oder teilweise untersagen. Dies kann während der Entwicklungsphase einer Webseite durchaus Sinn ergeben. Spätestens wenn ein Webprojekt jedoch live geht, sollten alle wichtigen Seiten für das Crawlen und die Indizierung freigegeben werden.

In diesem Artikel geben wir Ihnen einen Einblick darüber wie Suchmaschinen das Internet crawlen und indexieren und wie Sie sicherstellen können, dass Ihre Webseite korrekt indexiert wird.

Überprüfen Sie zunächst einmal welche Seiten eine Suchmaschine im Index hält. Dies erreichen Sie bei Google beispielsweise dadurch, dass Sie in das Suchfeld der Google-Maske site:meinedomain.ch eingeben. Wenn Sie hier nun Seiten sehen, die nicht in den Resultaten der Suchmaschinen erscheinen sollen, so können Sie diese mit robots.txt und den Meta-Robots-Tags für das Crawling und die Indexierung sperren.

Wie funktioniert robots.txt?

Robots.txt ist ein einfaches Textfile, welches in den Rootbereich der Webseite geladen wird. In diesem werden Instruktionen für die Suchmaschinen erfasst, welche das Crawling steuern.

Während des Crawling-Vorgangs hangelt sich der Spider einer Suchmaschine, welcher oft auch Bot, Robot oder Crawler genannt wird, von Link zu Link, von einer Domain zur nächsten und liest dabei alle gefundenen Inhalte aus. Suchmaschinen wie Google oder Bing berücksichtigen dabei die Instruktionen im robots.txt-File; das bedeutet, dass wenn Sie hier einer Suchmaschine verbieten bestimmte Bereiche einer Webseite zu indexieren, so wird dies in aller Regel berücksichtigt.

Welche Instruktionen enthält das robots-txt-File?

Im Minimum enthält ein robots.txt-File zwei Zeilen, nämlich für wen die Instruktion(en) auf Zeile zwei und nachstehend gelten und was erlaubt und was nicht erlaubt ist. Hier ein einfaches Beispiel:

User-agent: *
Disallow: /

Der Stern bedeutet, dass die Instruktionen für alle Suchmaschinen gelten und / sperrt alle Unterseiten der Domain für das Crawling.

Hier ein anderes Beispiel:

User-agent: Googlebot
Allow: /wp-content/uploads
Disallow: /login

Diese Instruktionen gelten nur für den Spider von Google, den so genannten Googlebot. Dieser darf /wp-content/uploads crawlen, nicht jedoch das Verzeichnis /login.

Die Instruktionen für die Spider werden im Robots Exclusion Protocol (REP) definiert. Um ein robots.txt-File zu testen, können Sie dieses unter dieser Adresse aufrufen: https://www.meinedomain.ch/robots.txt. Auch möglich ist es, das Google-Robots-Testing-Tool zu verwenden.

Jede Webseite verfügt über ein individuell unterschiedliches Crawl-Budget. Das bedeutet, dass bei grossen Webseiten mit vielen tausend Unterseiten eine Suchmaschine möglicherweise nicht alle Inhalte auslesen wird, weil das Budget stets abläuft bevor der Spider alle Inhalte findet. Ist dies der Fall, sollten weniger wichtige Inhalte für die Indexierung ausgeschlossen werden. In den meisten anderen Fällen werden die Verantwortlichen einer Webseite jedoch den Grossteil der Seiten freigeben wollen.

Die Meta-Robots-Tags

Während über das robots.txt-File das Crawling gesteuert wird, regelt man mit den Meta-Robots-Tags die Indexierung, also welche Inhalte tatsächlich in der Websuche gefunden werden dürfen.

Wie alle Meta-Daten, so findet sich auch das Meta-Robots-Tag im <head>-Bereich des Quellcodes. Zunächst ein Beispiel: <meta name=“robots“ content=“index,follow“ />. Dieses Tag erlaubt den Spidern die entsprechende Seite zu indexieren und sie erlaubt der Suchmaschine auch allen Links auf der Seite zu folgen. Folgende Möglichkeiten bestehen:

<meta name="robots" content=”index,follow”> HTML-Seite indexieren, Links folgen
<meta name="robots" content=”noindex,follow”> HTML-Seite nicht indexieren, Links folgen
<meta name="robots" content=”index,nofollow”> HTML-Seite indexieren, Links nicht folgen
<meta name="robots" content=”noindex,nofollow”> HTML-Seite nicht indexieren, Links nicht folgen

 
Alternativ können die Indexierungsinstruktionen auch global für die gesamte Webseite im http-Response-Header erfasst werden. Dies ist der so genannte X-Robots-Tag. Mehr Informationen hierzu erhalten Sie hier: http://noarchive.net/xrobots/.

Grundsätzlich ist jede Seite eine Ranking-Chance. Aus diesem Grund sollte man noindex nur sehr zurückhaltend verwenden, beispielsweise dann wenn die Seite über so gut wie keine Inhalte verfügt, den Einkaufswagen, Adminseiten, dynamische Produktseiten oder wenn Duplicate-Content vorliegt.

Robots.txt und die Meta-Robots-Tags enthalten weitreichende Instruktionen für die Suchmaschinen, welche die Sichtbarkeit massgeblich beeinflussen können. Aus diesem Grund sollte man hier keine Fehler begehen. Bei Fragen zu diesem Thema stehen wir Ihnen gerne zur Verfügung.