Die robots.txt ist eine Textdatei im Hauptverzeichnis einer Website. Sie dient zur Steuerung von Suchmaschinen-Bots und bietet den Webmastern eine gute Möglichkeit, den Suchmaschinen mitzuteilen, welche Dateien oder Verzeichnisse gecrawlt (besucht), bzw. nicht gecrawlt werden dürfen.
Die robots.txt kann mithilfe eines einfachen Texteditors erstellt werden. Hierbei handelt es sich um einzelne Zeilen, die von Suchmaschinen-Bots (Crawlern) analysiert werden.
Jeder Eintrag in der robots.txt besteht aus zwei Teilen: Der erste Teil wird User Agent genannt. In diesem Teil wird es auf einen bestimmten User Agent (wie zum Beispiel Google-Bot) verwiesen.
Beginnt eine Zeile mit User-agent: *, so ist es ein Zeichen dafür, dass alle Suchmaschinen-Bots ab dieser Zeile die darunter stehenden Anweisungen berücksichtigen sollen.
Im zweiten Teil arbeitet man mit Anweisungen allow und disallow. Dank diesen Anweisungen weiß der Suchmaschinen-Bot, ob er ein Dokument oder ein Verzeichnis crawlen darf.
Beginnt eine Zeile mit Disallow: / heißt das für die zuvor angesprochenen Bots, dass sie eine dazu angefügte Datei oder ein Verzeichnis nicht besuchen dürfen.
Eine einfache robots.txt-Datei enthält zwei Zeilen und erlaubt allen Bots alle Dokumente und Verzeichnisse einer Website zu crawlen:
# Ganze Site freigeben
User-agent: *
Disallow:
Im folgenden Beispiel wird eine ganze Website von der Indizierung (Übernahme in den Suchmaschinen-Index) ausgeschlossen:
# Ganze Site für alle Robots sperren
User-agent: *
Disallow: /
Der Zugriff auf bestimmte Dateien oder Verzeichnisse kann folgendermaßen verweigert werden:
User-agent: *
Disallow: /news/
Disallow: /daily.html
Um den Zugriff auf Ihre Website nur für bestimmte Suchmaschinen-Bots zu sperren, müssen Sie die entsprechenden Bots im User Agent-Teil jedes einzelnen Eintrags nennen:
User-agent: Googlebot
Disallow: /
Mit Allow können Sie den Bots den Zugriff auf eine Datei explizit erlauben:
User-agent: Googlebot
Disallow: /folder1/
Allow: /folder1/beispieldatei.html
Welche Inhalte können in einer robots.txt „ausgeschaltet" werden:
In der robots.txt können alle Verzeichnisse von der Indizierung gesperrt werden, die Sie im Index einer Suchmaschine nicht brauchen. Es können zum Beispiel unnötige Bilderverzeichnisse sein.
Eine zusätzliche Option, die in der robots.txt gut funktioniert, ist der Verweis auf die sitemap.xml. Diese Datei stellt weiterführende Inhalte für den Suchmaschinen-Bot zur Verfügung:
User-Agent: *
Disallow: Sitemap: http://www.deinewebsite.de/sitemap.xml
Das gleiche gilt auch für Video- oder Bilder-Sitemaps
User-Agent: *
Disallow: Sitemap: http://www. deinewebsite.de/sitemap.xml
Sitemap: http://www. deinewebsite.de/video-sitemap.xml
Sitemap: http://www. deinewebsite.de/bilder-sitemap.xml
Wichtig: gehen Sie bei der Erstellung der robots.txt vorsichtig vor und achten Sie auf die Anweisungen, die Sie dort gemacht haben. Ein flüchtiger Fehler kann dazu führen, dass die gesamte Website von Crawl ausgeschlossen wird, was schnell zu Ranking-Verlusten führen kann
Erfahre alles, was du wissen musst, um dein Marketing auf das nächste Level zu bringen. Bringe dein Unternehmen auf Erfolgskurs!
Kostenloser PDF-DownloadX