Was ist eine robots.txt?

16 Apr, 2015

Teilen auf:

Die robots.txt ist eine Textdatei im Hauptverzeichnis einer Website. Sie dient zur Steuerung von Suchmaschinen-Bots und bietet den Webmastern eine gute Möglichkeit, den Suchmaschinen mitzuteilen, welche Dateien oder Verzeichnisse gecrawlt (besucht), bzw. nicht gecrawlt werden dürfen. 

Wie ist die robots.txt aufgebaut? 

Die robots.txt kann mithilfe eines einfachen Texteditors erstellt werden. Hierbei handelt es sich um einzelne Zeilen, die von Suchmaschinen-Bots (Crawlern) analysiert werden. 

Jeder Eintrag in der robots.txt besteht aus zwei Teilen: Der erste Teil wird User Agent genannt. In diesem Teil wird es auf einen bestimmten User Agent (wie zum Beispiel Google-Bot) verwiesen. 

Beginnt eine Zeile mit User-agent: *, so ist es ein Zeichen dafür, dass alle Suchmaschinen-Bots ab dieser Zeile die darunter stehenden Anweisungen berücksichtigen sollen. 

Im zweiten Teil arbeitet man mit Anweisungen allow und disallow. Dank diesen Anweisungen weiß der Suchmaschinen-Bot, ob er ein Dokument oder ein Verzeichnis crawlen darf. 

Beginnt eine Zeile mit Disallow: / heißt das für die zuvor angesprochenen Bots, dass sie eine dazu angefügte Datei oder ein Verzeichnis nicht besuchen dürfen. 

Wie sieht eine einfache robots.txt aus? 

Eine einfache robots.txt-Datei enthält zwei Zeilen und erlaubt allen Bots alle Dokumente und Verzeichnisse einer Website zu crawlen: 

# Ganze Site freigeben 

User-agent: * 

Disallow:

 

 

Im folgenden Beispiel wird eine ganze Website von der Indizierung (Übernahme in den Suchmaschinen-Index) ausgeschlossen: 

# Ganze Site für alle Robots sperren 

User-agent: * 

Disallow: / 

 

Der Zugriff auf bestimmte Dateien oder Verzeichnisse kann folgendermaßen verweigert werden: 

User-agent: * 

Disallow: /news/ 

Disallow: /daily.html 

 

Um den Zugriff auf Ihre Website nur für bestimmte Suchmaschinen-Bots zu sperren, müssen Sie die entsprechenden Bots im User Agent-Teil jedes einzelnen Eintrags nennen: 

User-agent: Googlebot 

Disallow: / 

 

Mit Allow können Sie den Bots den Zugriff auf eine Datei explizit erlauben: 

User-agent: Googlebot 

Disallow: /folder1/ 

Allow: /folder1/beispieldatei.html 

 

Welche Inhalte können in einer robots.txt „ausgeschaltet" werden: 

In der robots.txt können alle Verzeichnisse von der Indizierung gesperrt werden, die Sie im Index einer Suchmaschine nicht brauchen. Es können zum Beispiel unnötige Bilderverzeichnisse sein. 

 

Eine zusätzliche Option, die in der robots.txt gut funktioniert, ist der Verweis auf die sitemap.xml. Diese Datei stellt weiterführende Inhalte für den Suchmaschinen-Bot zur Verfügung:

User-Agent: * 

Disallow: Sitemap: http://www.deinewebsite.de/sitemap.xml 

 

Das gleiche gilt auch für Video- oder Bilder-Sitemaps 

User-Agent: * 

Disallow: Sitemap: http://www. deinewebsite.de/sitemap.xml 

Sitemap: http://www. deinewebsite.de/video-sitemap.xml 

Sitemap: http://www. deinewebsite.de/bilder-sitemap.xml 

5 Fakten, die Sie über die robots.txt wissen sollten 

  • Die robots.txt liegt immer im Hauptverzeichnis (auf der selben Ebene wie die index.php domain.de/robots.txt) und wird durch Suchmaschinen-Bots direkt «beim Eingang» zu einer Website besucht
  • Die großen Suchmaschinen-Bots halten sich in der Regel an die Anweisungen in der robots.txt 
  • Generell kann eine vom Crawl ausgeschlossene Seite jederzeit im Index einer Suchmaschine landen. Es ist dann möglich, wenn es externe Links gibt, die auf die jeweilige Seite eingehen. Der Suchmaschinen-Bot hält solche Seiten möglicherweise für wichtig und nimmt sie in den Index mit rein 

Wichtig: gehen Sie bei der Erstellung der robots.txt vorsichtig vor und achten Sie auf die Anweisungen, die Sie dort gemacht haben. Ein flüchtiger Fehler kann dazu führen, dass die gesamte Website von Crawl ausgeschlossen wird, was schnell zu Ranking-Verlusten führen kann 

 
Um zu prüfen, ob Ihre robots.txt richtig erstellt ist und keine Fehler enthält, können Sie die Google Webmaster Tools nutzen. 

Teilen auf:

Book_image

Lade dir dieses E-Book KOSTENLOS herunter 36 Online Marketing Grundlagen für deinen Erfolg!

Erfahre alles, was du wissen musst, um dein Marketing auf das nächste Level zu bringen. Bringe dein Unternehmen auf Erfolgskurs!

download_iconKostenloser PDF-Download

X