Wie funktionieren Suchmaschinen: Datensammlung Teil 2/5

Crawler bilden die Schnittstelle der Suchmaschine zum Internet. Es handelt sich dabei um einfache Programme, die Webseiten nach HTML-Inhalten durchsuchen und diese in einer Datenbank abspeichern. Texte aus .ppt- oder .pdf-Dateien können ebenfalls indexiert werden. Nicht-HTML-Inhalte wie dynamische Seiten, Java, Java Script, Flash oder Bilder werden hingegen nicht erfasst.

„Wie findet ein solcher Crawler meine Website?" werdet Ihr Euch sich nun vermutlich fragen. Grundsätzlich gilt: Fast ohne Eure Hilfe, denn der Crawler folgt Links. Eure Website wird also früher oder später automatisch gefunden, wenn eine bereits indexierte Website einen Link zu Eurer Website enthält. Besteht ein solcher Link jedoch (noch) nicht, führt kein Weg an einer manuellen Anmeldung vorbei. Jede Suchmaschine unterhält zu diesem Zweck eine Datenbank, in der die „Suchmaschinenanmeldungen der neuen Seiten" gespeichert sind.

Verwaltet werden die hunderte von Crawlern durch sogenannte Scheduler. Ein solches Steuerungsprogramm bestimmt wann, wie oft und wie tief ein Crawler eine Website durchsucht. Außerdem registriert es die fehlgeschlagenen Versuche der Datensammlung auf den jeweiligen Seiten. Da Eure Website in unterschiedlichen Intervallen gescannt und neu indexiert wird, schadet es dennoch nicht Eure Website manuell bei den Suchmaschinen anzumelden, um die eigene Indexierung aktuell zu halten. Bei Google geht das beispielsweise mithilfe der Webmastertools.

Enthält Eure Website dynamische Elemente wie einen täglichen Newsfeed, so verkürzen sich die Besuchszeiten der Crawler aufgrund der Aktualität. Durch so genannte Meta-Tags können den Suchmaschinen zudem Informationen über eine Webseite bereitgestellt werden. Ihr habt mittels robots.txt außerdem die Möglichkeit anzugeben, welche Eurer Seiten und Links nicht von den Suchmaschinen gesammelt werden dürfen.

Der so genannte Indexer bereitet anschließend die vom Crawler gesammelten Daten auf und erstellt damit den bereits angesprochenen Index. Im Prinzip wird dazu für jedes Wort ein Eintrag mit der genauen Position im Datenbestand erstellt, wodurch der Index für die Suchmaschine schnell und effizient durchsuchbar wird.

Weiterführende Links:
Allgemeines zur robot.txt
Google Webmastertools

Erfolgreich im Web

Die Online Marketing App für kleine Unternehmen

Jetzt entdecken
Gutschein: € 75 Startguthaben
Gutschein: € 75 Startguthaben

02 Apr, 2013