Die Indexierung von Webseiten

Im SEO wenden wir den Grundsatz an, dass jede Seite eine Ranking-Chance darstellt. Dies gilt natürlich nur, wenn die Spider der Suchmaschinen eine Seite überhaupt finden, crawlen und indexieren. Hier mehr dazu.

Die vier Schritte zur Indexierung einer Seite

Damit eine Seite im Index einer Suchmaschine wie Google landen kann, sind vier Schritte vonnöten:

  1. Discovery

Als erstes muss die Suchmaschine die Adresse einer Seite, also die URL, erst einmal kennen. Dies geschieht normalerweise automatisch, da der Crawler – auch Spider genannt – sich kontinuierlich im Internet von Link zu Link hangelt und neu gefundene Seiten zur Indexierung vormerkt. Fördern können Webseiteninhaber das Discovery durch das Anlegen und Einreichen von Sitemaps.

  1. Crawling

Der bereits erwähnte Crawler, welcher bei Google Googlebot heisst, wird dann die neu gefundene Seite irgendwann crawlen, also abrufen.

Nicht abgerufen werden können Seiten mit einem 3er-, 4er- oder 5er-HTTP-Statuscode. Der HTTP-Statuscode wird auf jede HTTP-Anfrage als Antwort geliefert. 3er-Statuscodes wie 301 (Moved Permanently) oder 302 (Moved Temporarily) umfassen dabei Umleitungen, 4er-Statuscodes wie 403 (Forbidden) oder 404 (Not Found) Client-Fehler und 5er-Statuscodes wie 500 (Internal Server Error) oder 504 (Gateway Timeout) Server-Fehler.

Auch nicht abgerufen werden Seiten, die über die robots.txt nicht zur Indexierung freigegeben sind.

Jede Webseite verfügt über ein individuelles Crawling-Budget, also ein von der Suchmaschine gesetztes Limit an Seiten, die vom Crawler maximal in einem bestimmten Zeitraum abgerufen wird. Dies darum weil die Ressourcen von Google und Co. beschränkt sind. „Wichtige“ Webseiten haben dabei ein höheres Crawling-Budget als weniger wichtige.

  1. Rendering

Während Suchmaschinen früher nur den HTML-Code ausgelesen haben, was Tür und Tor zu so genannten Black-Hat-SEO-Taktiken wie gleiche Schriftfarbe wie Hintergrundfarbe geöffnet hatte, stellen Suchmaschinen heute die Seiten komplett dar, inklusive JavaScript, Bilder, usw. Aus diesem Grund ist es wichtig, dass keine Komponenten, die für das Rendern der Seite nötig sind über die robots.txt-Datei gesperrt werden. Auch Mixed Content sollte vermieden werden.

  1. Indexierung

Im vierten Schritt schliesslich fügt die Suchmaschine die Seite mit allen Inhalten aus dem Rendering ihrem Index hinzu. Dies bedeutet auch, dass die Seite künftig in den Suchergebnisseiten (SERPs) erscheinen kann – die eingangs erwähnte „Ranking-Chance“.

In Google ist es möglich den Indexierungsstatus mit dem Site-Command abzufragen. Hierzu tippt man folgendes in den Suchschlitz von Google:

site:website.ch

oder

site:website.ch/seite1

website.ch ist dabei durch die jeweilige Domain zu ersetzen. Im ersten Beispiel zeigt Google alle Seiten der entsprechenden Domain, die sich im Index befinden. Im zweiten nur ob die entsprechende Seite indexiert ist.

Achtung: Wenn auf einer Seite das Noindex-Tag im Heading-Bereich der Seite gesetzt wurde, kann sie nicht in den Index von Google aufgenommen werden.

Schwierigkeiten bei der Indexierung

Einige der Fallstricke bei der Indexierung haben wir oben bereits erwähnt.

Im Normalfall findet Google neue Seiten einer bestehenden Webseite sehr schnell und indexiert diese im Laufe weniger Stunden oder Tage.

Die Zeit, die es dauert bis eine neue Seite indexiert wird, ist ein guter Anhaltspunkt darüber wie Google die Qualität der Seite einschätzt. Werden neue Inhalte zügig indexiert, bedeutet dies im Normalfall, dass Google der Domain Vertrauen schenkt.

Dauert es umgekehrt sehr lange bis neue Seiten im Index von Google landen oder werden diese sogar erst indexiert, wenn man sie selber über die Search Console zur Indexierung anmeldet, so deutet dies darauf hin, dass sie nur knapp über der Qualitätsschwelle liegen (Quelle). Dies sollte auch im Zusammenhang mit der Auswahl von Webseiten für Backlinks beachtet werden.