Die „robots.txt“ richtig verstehen und nutzen – nicht nur bei Google

Geschrieben von
Roger Klein
robots.txt

Was ist die robots.txt überhaupt genau?

Die robots.txt hilft dem Webmaster – neben anderen Instrumenten – dabei, das Crawling von Suchmaschinen zu steuern. Diese Textdatei muss im Root-Verzeichnis einer Domain oder Subdomain abgelegt sein. Sie erlaubt es, einzelnen Bots den Zugriff zu verwehren oder bestimmte Verzeichnisse auf dem Server zu sperren.

Schlüsselbegriffe sind „Allow“ und „Disallow“ – zum Freigeben und Sperren von Verzeichnissen. Der „User-Agent“ bezeichnet die Bots, auch Crawler genannt, also etwa den Googlebot, BingBot oder Yandex Bot. Mit dem Sternchen * sprichst du alle Verzeichnisse oder alle Bots auf einmal an. Verbindlich sind die Anweisungen übrigens nicht – sie sind eine Empfehlung, keine Pflicht.

Wozu Änderungen an der robots.txt?

Neben der robots.txt gibt es weitere Möglichkeiten, Crawling und Indexierung zu beeinflussen: die Noindex-Anweisung in den Meta-Tags, Canonical Tags und die Einstellungen in der Google Search Console. Ziel ist es, Suchmaschinen bestimmte Inhalte vorzuenthalten und das Crawl- und Index-Budget optimal zu nutzen.

Bei grossen Nachrichtenseiten oder Webshops kann eines dieser Budgets knapp werden. Unnötige Duplikate vermeiden, hochwertige Inhalte in technisch sauberer Form bereitstellen – das bleibt die Grundregel. Neue Rahmenbedingungen bringen manchmal den Wunsch mit sich, die Gesamtkonfiguration anzupassen und auch den Inhalt der robots.txt zu ändern.

Problem Google Cache: Aktualisierung nicht in Echtzeit

Die Datei mit einem Text-Editor wie Notepad++ bearbeiten, abspeichern und per FTP-Programm wie Filezilla hochladen – für einen erfahrenen Webmaster kein Problem. Die Syntax kann im Einzelfall aber knifflig sein, weil die Reihenfolge der Anweisungen je nach Bot unterschiedlich interpretiert wird.

Orientiere dich am Marktführer Google: Dessen Bot prüft zuerst alle „Allow“-Einträge, dann die „Disallow“-Einträge. Andere Bots lesen einfach von oben nach unten. Dazu kommt ein Phänomen, das Gary Illyes – damals führender Mitarbeiter bei Google – im Juli 2020 auf Twitter bestätigte: Die alte robots.txt-Datei bleibt bis zu einem Tag im Google Cache. Die Crawling-Bedingungen ändern sich also nicht sofort.

Aktualisierung des Google Cache möglich

Das Cache-Phänomen ist ärgerlich und sorgt manchmal für Verwirrung. Du kannst die Erneuerung aber forcieren – allerdings nur in der alten Version der Google Search Console, über den robots.txt-Tester. Dort informierst du Google über den Button „Senden“ darüber, dass die Datei gerade aktualisiert wurde. Laut Gary Illyes verkürzt das die Wartezeit.

Tags: GoogleSuchmaschineWebentwicklung
Über die Autor:in

Roger Klein

Geschäftsführer dataloft GmbH. WordPress seit Version 3, Frauenfeld. Verantwortet bei dataloft Strategie, Architektur und KI-Integration. Baut mit Mattes und Elena rundum.dog, die grösste deutschsprachige Hunde-Wissensplattform.

→ Wir

Hat dich der Artikel ins Grübeln gebracht?

Wir besprechen sowas gerne im Erstgespräch — schreib uns oder ruf an. Unverbindlich, persönlich, in der Regel innerhalb von 24 Stunden werktags.

→ Direkt zum Kontakt

Wenn du gleich noch was Grösseres anschauen willst

rundum.dog — unsere Hunde-Wissensplattform.

Die grösste deutschsprachige Hunde-Wissensplattform. Unser Eigenprojekt, unser Live-Beweis. Mit ca. einer Million Sessions pro Monat, eigenem KI-Plugin auf Anthropic-API und 17 Custom Post Types.

→ rundum.dog ansehen

Schreib uns oder ruf an.
Wir antworten in der Regel innerhalb von 24 Stunden werktags.

Roger Klein
Geschäftsführer
E-Mail
info@dataloft.ch
Telefon
+41 52 511 05 05
Adresse
dataloft GmbH · Rietweg 1 · 8506 Lanzenneunforn TG