Was ist eine robots.txt?

16 Apr, 2015

Die robots.txt ist eine Textdatei im Hauptverzeichnis einer Website. Sie dient zur Steuerung von Suchmaschinen-Bots und bietet den Webmastern eine gute Möglichkeit, den Suchmaschinen mitzuteilen, welche Dateien oder Verzeichnisse gecrawlt (besucht), bzw. nicht gecrawlt werden dürfen.

Wie ist die robots.txt aufgebaut?

Die robots.txt kann mithilfe eines einfachen Texteditors erstellt werden. Hierbei handelt es sich um einzelne Zeilen, die von Suchmaschinen-Bots (Crawlern) analysiert werden.

Jeder Eintrag in der robots.txt besteht aus zwei Teilen: Der erste Teil wird User Agent genannt. In diesem Teil wird es auf einen bestimmten User Agent (wie zum Beispiel Google-Bot) verwiesen.

Beginnt eine Zeile mit User-agent: *, so ist es ein Zeichen dafür, dass alle Suchmaschinen-Bots ab dieser Zeile die darunter stehenden Anweisungen berücksichtigen sollen.

Im zweiten Teil arbeitet man mit Anweisungen allow und disallow. Dank diesen Anweisungen weiß der Suchmaschinen-Bot, ob er ein Dokument oder ein Verzeichnis crawlen darf.

Beginnt eine Zeile mit Disallow: / heißt das für die zuvor angesprochenen Bots, dass sie eine dazu angefügte Datei oder ein Verzeichnis nicht besuchen dürfen.

Wie sieht eine einfache robots.txt aus?

Eine einfache robots.txt-Datei enthält zwei Zeilen und erlaubt allen Bots alle Dokumente und Verzeichnisse einer Website zu crawlen:

# Ganze Site freigeben

User-agent: *

Disallow:

Im folgenden Beispiel wird eine ganze Website von der Indizierung (Übernahme in den Suchmaschinen-Index) ausgeschlossen:

# Ganze Site für alle Robots sperren

User-agent: *

Disallow: /

Der Zugriff auf bestimmte Dateien oder Verzeichnisse kann folgendermaßen verweigert werden:

User-agent: *

Disallow: /news/

Disallow: /daily.html

Um den Zugriff auf Ihre Website nur für bestimmte Suchmaschinen-Bots zu sperren, müssen Sie die entsprechenden Bots im User Agent-Teil jedes einzelnen Eintrags nennen:

User-agent: Googlebot

Disallow: /

Mit Allow können Sie den Bots den Zugriff auf eine Datei explizit erlauben:

User-agent: Googlebot

Disallow: /folder1/

Allow: /folder1/beispieldatei.html

Welche Inhalte können in einer robots.txt „ausgeschaltet" werden:

In der robots.txt können alle Verzeichnisse von der Indizierung gesperrt werden, die Sie im Index einer Suchmaschine nicht brauchen. Es können zum Beispiel unnötige Bilderverzeichnisse sein.

Eine zusätzliche Option, die in der robots.txt gut funktioniert, ist der Verweis auf die sitemap.xml. Diese Datei stellt weiterführende Inhalte für den Suchmaschinen-Bot zur Verfügung:

User-Agent: *

Disallow: Sitemap: http://www.deinewebsite.de/sitemap.xml

Das gleiche gilt auch für Video- oder Bilder-Sitemaps

User-Agent: *

Disallow: Sitemap: http://www. deinewebsite.de/sitemap.xml

Sitemap: http://www. deinewebsite.de/video-sitemap.xml

Sitemap: http://www. deinewebsite.de/bilder-sitemap.xml

5 Fakten, die Sie über die robots.txt wissen sollten

Die robots.txt liegt immer im Hauptverzeichnis (auf der selben Ebene wie die index.php domain.de/robots.txt) und wird durch Suchmaschinen-Bots direkt «beim Eingang» zu einer Website besucht
Die großen Suchmaschinen-Bots halten sich in der Regel an die Anweisungen in der robots.txt
Generell kann eine vom Crawl ausgeschlossene Seite jederzeit im Index einer Suchmaschine landen. Es ist dann möglich, wenn es externe Links gibt, die auf die jeweilige Seite eingehen. Der Suchmaschinen-Bot hält solche Seiten möglicherweise für wichtig und nimmt sie in den Index mit rein

Wichtig: gehen Sie bei der Erstellung der robots.txt vorsichtig vor und achten Sie auf die Anweisungen, die Sie dort gemacht haben. Ein flüchtiger Fehler kann dazu führen, dass die gesamte Website von Crawl ausgeschlossen wird, was schnell zu Ranking-Verlusten führen kann

Um zu prüfen, ob Ihre robots.txt richtig erstellt ist und keine Fehler enthält, können Sie die Google Webmaster Tools nutzen.

Was ist eine robots.txt?

Wie ist die robots.txt aufgebaut?

Wie sieht eine einfache robots.txt aus?

5 Fakten, die Sie über die robots.txt wissen sollten

Die ausgezeichnete App für Online Marketing