Robots.txt - Wegweiser für Crawler

Die robots.txt zeigt den Suchmaschinen welche Seiteninhalte gelesen werden dürfen und welche nicht

Die robots.txt teilt den Crawlern der Suchmaschinen mit, ob Verzeichnisse von und jede Seite Suchmaschinen gelesen werden dürfen. Der Aufbau: Zuerst ist der User-Agent hinter der Kennzeichnung „User-agent“ genannt, es folgt der Befehl „Allow:/“ respektive „Disallow:/“ sowie eine Auflistung der respektiven Dateien. Du kannst alle Bots (alle Crawler der Suchmaschinen) ansprechen, indem Du anstelle des Namens einen „*“ nennst.

Die robots.txt zeigt jedem Crawler(Spider) den Weg

In dieser TXT-Datei ist hinterlegt, ob ein Crawler welches Verzeichnis mit Unterverzeichnis durchsuchen darf. Hier ist hinterlegt, ob Dateien oder Inhalte gesperrt sind. Die eine Textdatei spricht alle Bots an. Du schreibst grundsätzlich textbasiert in HTML. Gehst Du davon aus, dass ein kleines Programm eine function ist, kannst Du die robots.txt als function bezeichnen. Das Schlüsselwort void (function) bedeutet, dass keine Daten übergeben werden, könnte grob damit verglichen werden. Die function void in C und C++ sowie anderen Programmiersprachen wird für eine Methode ohne Rückgabewert genutzt, die Verwendung ist anders als hier.

Wo findet der Bot von Google die robots.txt?

Die robots.txt muss im Hauptverzeichnis der Domain hinterlegt sein. Speicherst Du die Datei an einem anderen Ort, finden die Suchmaschinen sie nicht. Und jede Hauptdomain darf nur eine robots.txt Datei haben.

Null Ahnung, wie die robots.txt aufgebaut ist?

Das erste Element der robots.txt ist der User-Agent, der beim Namen genannt wird. Das zweite Element ist der Name des Verzeichnisses, das gelesen werden soll, respektive nicht gelesen werden darf. In der robots.txt darf die Sitemap (xml) hinterlegt sein. Die Sitemap enthält wichtige Zusatzinformationen für Suchmaschinen. Du benötigst nur bei komplexen Seiten eine Sitemap.

Beispiele, Vorlagen und Style Guides findest Du online. Der Content der robots.txt sieht folgendermaßen aus:

Die wichtigsten Bezeichnungen der User-Agenten

Studien zufolge wird in 96 Prozent der Fälle als Suchmaschine Google verwendet. Der Bot von Google ist der Wichtigste – in Deutschland. Abhängig von Deiner Zielgruppe solltest Du in der Datei nicht nur Informationen für Google hinterlegen. Das sind die wichtigsten Bezeichnungen:

Ein Beispiel

Wie funktioniert die Angabe für die Crawler? Damit Du eine genaue Vorstellung bekommst, wie Du die Anweisung gestaltest, geben wir Dir hier ein Beispiel. Wir schreiben den Content der Textdatei in HTML:

User-agent: Miepbot

Disallow:/verzeichnis5/

Disallow:/verzeichnis-7/

Disallow:/verzeichnis_12/

Du hast gerade dem Crawler Miepbot mitgeteilt, dass die Verzeichnisse 5, 7 und 12 für ihn gesperrt sind und er sie nicht durchsuchen darf.

Die Befehle „Allow“ und „Disallow“ sprichst Du nicht nur für Verzeichnisse und Unterverzeichnisse aus, sondern zusätzlich für Textdateien, Bilder, Videos und mehr. Sie können für jede Art von Content verwendet werden. Wichtig zu wissen: Google hat nicht nur einen Googlebot. Abhängig vom Inhalt sind andere Crawler wichtig:

Kein blindes Vertrauen in die robots.txt!

Die robots.txt ist eine Hilfe für die Crawler. Du hast keine Garantie, dass die Website nicht gecrawlt wird. Google sagt (genauso wie Bing), dass die Datei beachtet wird. Weder Google, noch die anderen Suchmaschinen sind verpflichtet. Die Textdatei bietet keine Sicherheit vor dem Zugriff durch Bots und Personen. Um die Seiten-Indexierung von Google zu kontrollieren, hilft ein Blick die Search Console Google.

Du findest im Internet Listen von Crawlern, die die Anweisungen in der robots.txt ignorieren oder falsch interpretieren. In diese Gruppe gehören der DuckDuckBot (DuckDuckGo), der COIParser (Wikimedia Foundation), der Feedfetcher-Google (Google) und viele andere.

Datei clean? Testen!

Beim Erstellen der robots.txt (Vorsicht, case-sensitiv!) können viele Fehler unterlaufen. Bevor Du die Datei bei Google einreichst, solltest Du sie mit einem Texter überprüfen. Die respektiven Seiten für den Test findest Du online. Fehler vermeidest Du, indem Du Style Vorlagen online ansiehst: Das hilft Dir, die function robots.txt zu verstehen.

Eine andere Methode, Crawler abzuhalten, sind Meta-Tags. Ein Beispiel findest Du an anderer Stelle.

Häufige Fragen und Antworten

Was passiert ohne eine robots.txt Datei?
Ist keine robots.txt auf einer Website hinterlegt, gilt automatisch, dass alle Bots und Crawler alle Unterseiten und Dateien lesen und untersuchen dürfen.
Was bedeutet "Disallow: / search" in robots.txt?
Mit "Disallow" wird lediglich der Zugriff auf ein Verzeichnis mit der Bezeichnung "search" verboten und somit das Anzeigen dieser URL in den Suchergebnissen unterdrückt.
Ausschluss von Dateien mit Hilfe der robots.txt?
Der einfachste Weg ist, in die robots. txt zu gehen und die gewünschten Dateiendungen vom Crawling auszuschließen, so kann der User der Webseite die PDF-Datei nutzen, aber wird für die Suchmaschine zur Indexierung blockiert.

Jetzt beim SEO Doktor ein unverbindliches Angebot für eine Suchmaschinenoptimierung einholen.