Robots.txt – Türsteher für Suchmaschinen

Wer Zutritt zu irgendwelchen komisch angesagten Clubs haben will nur damit er sich neben Dieter Bohlen und anderen sogenannten Künstlern genauso künstlich fühlen kann, muss zunächst am Türsteher vorbei. Ein Türsteher bestimmt ob man gut genug, schlecht genug, langweilig genug oder irgendwie eben passend genug aussieht um eingelassen zu werden. Die robots.txt ist im Grunde nichts anderes. Nur das sie jedem Besucher zusätzlich vorschreibt, wo er sich aufhalten darf und wo nicht. Die robots.txt ist auch viel eleganter, sie steht nicht offensiv vor oder hinter der Tür herum und trägt fragwürdig antrainierte Muskeln zur Schau. Sie hält sich eher lässig entspannt im Hauptverzeichnis der Domain auf, trägt einen einfachen Unix code und wird trotzdem als erstes von jeder Suchmaschine angesteuert.

Jede Suchmaschine bittet über einen sogenannten Robot, Spider oder Crawler um Zugang zu Ihrer Seite. Der Robot enthält exakte Angaben der Suchmaschinen nach welchen Vorgaben die angesteuerte Seite zu durchsuchen ist. Das können Sie den Robots der Suchmaschinen mit Hilfe der robots.txt entweder erleichtern oder erschweren. Um die robots.txt zu erstellen genügt ein einfacher Texteditor, z.B. der Microsoft Editor. Einige HTML-Editoren, wie z.B. Dreamweaver können ebenfalls Textdokumente erstellen. Wesentlich einfacher jedoch geht es mit dem kostenlosen Robots.txt Generator.

Und welche Informationen enthält die robots.txt?

Zum einen bestimmt der user-agent Eintrag an welchen Crawler sich die robots.txt wendet. Hier können Suchmaschinen gezielt aber auch generell angesprochen werden:

user-agent: googlebot , richtet sich an den Google Crawler

user-agent: * , richtet sich an alle Crawler

Zum anderen können Sie einem Suchmaschinen-Spider Kommandos erteilen, z.B. welche Verzeichnisse er durchsuchen und welche Dateien er herunterladen darf:

disallow: produkt.jpg , verbietet dem Crawler die Datei produkt.jpg herunterzuladen

disallow: /produktinformation/ , verbietet dem Crawler das Verzeichnis Produktinformation zu durchsuchen

Möchten Sie den Suchmaschinen Zugang zu allen Verzeichnissen und Dateien ermöglichen, setzen Sie folgendes Kommando ein:

disallow: *

Möchten Sie keiner Suchmaschine erlauben Ihre Seite zu spidern, verwenden Sie folgenden Eintrag:

user-agent: *
disallow: /

Das Slash-Symbol / kennzeichnet hier das Hauptverzeichnis Ihrer Domain.

Dies sind vorgeschriebene Befehle, die Sie zwar variieren aber nicht verändern können. Etwas Abwechslung können Sie durch den sogenannten crawl-delay entstehen lassen. Mit diesem Befehl bestimmen Sie, dass der Robot Ihre Webseite nur alle x Sekunden abrufen darf.

Möchten Sie, z.B. das der MSN-Bot Ihre Seite alle 40 Sekunden abruft, machen Sie folgenden Eintrag in die robots.txt:

user-agent: msnbot
crawl-delay: 40
disallow: /*.jpg

Mit dem letzten Befehl, verbieten Sie ihm darüber hinaus jede JPG-Datei.

Der Google-Bot wird diesen Befehl jedoch nicht verstehen, er ist etwas eigen und möchte gern selbst bestimmen, wie oft und in welchen Abständen er Ihre Seite besucht.

Setzen Sie trotzdem unbedingt eine robots.txt ein, nicht nur weil sie Ihnen etwas Macht über die sonst unberechenbaren Suchmaschinen gibt, sie wird Ihnen Bandbreite sparen. Sie hält Ihre Log-Files sauber, denn jedes Mal wenn ein Robot Ihre Seite besucht, sucht er die robots.txt, findet sie nicht und hinterlässt einen 404 not found-Fehler. Vor allem aber hilft sie Ihnen das Problem Duplicate Content zu mildern.

Kommentar schreiben
Persönliche Angaben