Was ist die robots.txt überhaupt genau?
Die robots.txt hilft dem Webmaster – neben anderen Instrumenten – dabei, das Crawling von Suchmaschinen zu steuern. Diese Textdatei muss im Root-Verzeichnis einer Domain oder Subdomain abgelegt sein. Sie erlaubt es, einzelnen Bots den Zugriff zu verwehren oder bestimmte Verzeichnisse auf dem Server zu sperren.
Schlüsselbegriffe sind „Allow“ und „Disallow“ – zum Freigeben und Sperren von Verzeichnissen. Der „User-Agent“ bezeichnet die Bots, auch Crawler genannt, also etwa den Googlebot, BingBot oder Yandex Bot. Mit dem Sternchen * sprichst du alle Verzeichnisse oder alle Bots auf einmal an. Verbindlich sind die Anweisungen übrigens nicht – sie sind eine Empfehlung, keine Pflicht.
Wozu Änderungen an der robots.txt?
Neben der robots.txt gibt es weitere Möglichkeiten, Crawling und Indexierung zu beeinflussen: die Noindex-Anweisung in den Meta-Tags, Canonical Tags und die Einstellungen in der Google Search Console. Ziel ist es, Suchmaschinen bestimmte Inhalte vorzuenthalten und das Crawl- und Index-Budget optimal zu nutzen.
Bei grossen Nachrichtenseiten oder Webshops kann eines dieser Budgets knapp werden. Unnötige Duplikate vermeiden, hochwertige Inhalte in technisch sauberer Form bereitstellen – das bleibt die Grundregel. Neue Rahmenbedingungen bringen manchmal den Wunsch mit sich, die Gesamtkonfiguration anzupassen und auch den Inhalt der robots.txt zu ändern.
Problem Google Cache: Aktualisierung nicht in Echtzeit
Die Datei mit einem Text-Editor wie Notepad++ bearbeiten, abspeichern und per FTP-Programm wie Filezilla hochladen – für einen erfahrenen Webmaster kein Problem. Die Syntax kann im Einzelfall aber knifflig sein, weil die Reihenfolge der Anweisungen je nach Bot unterschiedlich interpretiert wird.
Orientiere dich am Marktführer Google: Dessen Bot prüft zuerst alle „Allow“-Einträge, dann die „Disallow“-Einträge. Andere Bots lesen einfach von oben nach unten. Dazu kommt ein Phänomen, das Gary Illyes – damals führender Mitarbeiter bei Google – im Juli 2020 auf Twitter bestätigte: Die alte robots.txt-Datei bleibt bis zu einem Tag im Google Cache. Die Crawling-Bedingungen ändern sich also nicht sofort.
Aktualisierung des Google Cache möglich
Das Cache-Phänomen ist ärgerlich und sorgt manchmal für Verwirrung. Du kannst die Erneuerung aber forcieren – allerdings nur in der alten Version der Google Search Console, über den robots.txt-Tester. Dort informierst du Google über den Button „Senden“ darüber, dass die Datei gerade aktualisiert wurde. Laut Gary Illyes verkürzt das die Wartezeit.