robots.txt ist ein Begriff, der einem öfter mal über den Weg laufen kann, wenn man sich mit den Themen Suchmaschinenoptimierung und Webseiten auseinandersetzt. Wenn man davon aber noch nie etwas gehört hat, ist es gar nicht so einfach zu verstehen. In unserem Beitrag wollen wir versuchen die robots.txt und ihren Nutzen so einfach und verständlich wie möglich zu erklären.
Was ist die robots.txt?
Ohne Abkürzung wird sie auch als Robots-Exlusion-Standard-Protokoll bezeichnet. Das .txt gibt uns einen Hinweis darauf, dass es sich außerdem um eine Textdatei handelt.
Diese Textdatei wird von den Crawlern einer Webseite aufgerufen und gibt ihnen Hinweise darauf, welche Seiten gelesen werden dürfen und welche nicht. Webseiten werden zum Beispiel durch Google-Bots gecrawlt, die die Webseite dann in das Verzeichnis der Suchmaschine Google aufnehmen. Das passiert aber nicht nur einmal, sondern regelmäßig. Die robots.txt ist dabei der Vermittler zwischen der Webseite bzw. dem Webhoster (dem Verantwortlichen der Webseite) und den Crawlern.
Wie sieht die robots.txt aus?
Die robots.txt ist eine einfache Textdatei mit Informationen. Die Informationen teilen sich in zwei Komponenten: spezifische Bots und Regeln für diese Bots. In der robots.txt kann festgelegt werden, welche Bots welche Seiten der Webseite nicht crawlen bzw. lesen sollen.
Spezifische Bots werden dabei mit „user-agent: Name des Bots„ bezeichnet. Oft will man einfach alle möglichen Bots ansprechen und nutzt dafür den Ausdruck „user-agent: *„.
Die zweite Komponente – die Regeln für die angesprochenen Bots – funktionieren mit dem Ausdruck „disallow: /pfad/„. Als Pfad kann hier jede beliebige Unterseite der Webseite eingegeben werden. Wenn es in einer Webseite jedoch die Pfade /fotos/urlaub und /fotos/zuhause gibt, werden mit dem Ausdruck „disallow: /fotos/“ beide Unterseiten von der Indexierung ausgeschlossen.
Man kann natürlich auch den Ausdruck „allow: *“ verwenden, dieser ist aber unnötig, da die Bots einfach in der Regel alles crawlen, was nicht ausgeschlossen wurden. Wenn Sie eine bestimmte Seite indexieren möchten, kann hier die Google Search Console besser weiterhelfen.
Ein Beispiel für eine robots.txt
Eine robots.txt Datei könnte zum Beispiel so aussehen:
User-agent: Googlebot Disallow: /unnötigeseite/ User-agent: * Disallow: /beispielseite/
Es gibt noch mehrere Befehle, die an dieser Stelle verwendet werden können. In unserem Beitrag wollen wir diese selten genutzten Befehle aber nicht vertiefen, sondern uns auf die Standard-Lösung konzentrieren.
robots.txt und die Suchmaschinenoptimierung
Wichtig ist auf jeden Fall, dass eine robots.txt Ihrer Webseite existiert und dass diese von den Crawlern auch gefunden wird. Dafür muss sie sich in der Domain-Root befinden. Wenn Sie eine robots.txt ganz neu für Ihre Webseite erstellen wollen, erstellen Sie dafür ein Textdokument, benennen es robots.txt und laden es auf Ihrer Webseite hoch.
Wichtig zu erwähnen ist auch, dass sich die Crawler und Bots nicht an die Regeln in der robots.txt halten müssen. Es ist keine Pflicht, sondern eher eine höfliche Aufforderung.
Hier finden Sie noch einen Artikel direkt von Google über die robots.txt. Er ist gut dazu geeignet, im Anschluss an diesen Artikel sein Wissen noch weiter zu vertiefen.