Die “robots.txt” richtig verstehen und nutzen – nicht nur bei Google

Was ist die robots.txt überhaupt genau?

Die Datei robots.txt hilft, neben anderen Instrumenten, dem Webmaster dabei, das Crawling von Suchmaschinen zu steuern. Diese Textdatei muss im Root-Verzeichnis einer Domain oder Subdomain abgelegt werden. Sie bietet die Möglichkeit, einzelnen Bots den Zugriff zu verwehren oder auch einzelne Verzeichnisse auf dem Server sperren.

Schlüsselbegriffe sind dabei „Allow“ und „Disallow“ zum Freigeben und Sperren von Verzeichnissen. Der „User-Agent“ bezeichnet dabei die Bots, auch Crawler, wie etwa den Googlebot, BingBot oder Yandex Bot. Mit dem Sternchen * lassen sich alle Verzeichnisse oder alle Bots zusammen ansprechen. Die Anweisungen sind allerdings keineswegs strikt verbindlich, sondern stellen allenfalls eine Empfehlung für die Suchmaschinen dar.

Wozu Änderungen an der robots.txt?

Neben der robots.txt gibt es mit der Noindex-Anweisung in den Meta-Tags, den Canonical Tags und den Einstellungen in der Google Search Console eine Reihe von Möglichkeiten, Crawling und Indexierung zu beeinflussen. Ziel ist es, Suchmaschinen bestimmte Inhalte vorzuenthalten, also das Crawling- und Index-Budget optimal zu nutzen.

Insbesondere bei grossen Nachrichtenseiten oder auch Webshops kann es sein, dass eines dieser Budgets zu knapp ist. Grundsätzlich gilt es daher, unnötige Duplikate zu vermeiden und hochwertige Inhalte in technisch sauberer Form bereitzustellen. Neue Rahmenbedingungen führen in diesem Kontext dazu, dass es Wünsche gibt, die Gesamt-Konfiguration anzupassen und beispielsweise auch den Inhalt der robots.txt-Datei zu ändern.

Problem Google Cache: Aktualisierung nicht in Echtzeit

Das Bearbeiten der Datei mit einem Text-Editor wie Notepad++, Abspeichern und Hochladen per FTP-Programm wie Filezilla, stellt für den findigen Webmaster im Normalfall kein Problem dar. Im Einzelfall ist die Syntax allerdings unter Umständen knifflig, weil die Reihenfolge der Anweisungen unterschiedlicher Handhabung unterliegt.

Empfehlenswert ist es, sich am Marktführer Google zu orientieren, dessen Bot zunächst alle Einträge mit „Allow“ und dann die mit „Disallow“ prüft. Andere Bots lesen einfach von oben nach unten. Hinzu kommt ein Phänomen, das Gary Illyes, ein führender Mitarbeiter bei Google, im Juli 2020 auf Twitter bestätigte. Demnach bleibt die alte robots.txt-Datei bis zu einem Tag im Google Cache, so dass die Crawling-Bedingungen vorerst unverändert bleiben.

Aktualisierung des Google Cache möglich

Das Cache-Phänomen ist unter Umständen ärgerlich und stiftet die eine oder andere Verwirrung. Es besteht jedoch die Möglichkeit, die Erneuerung zu forcieren. Diese gibt es allerdings nur in der alten Version der Google Search Console in Form des robots.txt-Testers. Dort ist es möglich, über den Button „Senden“ Google darüber zu informieren, dass die Datei just aktualisiert wurde. Laut Gary Illyes folgt daraus eine kürzere Wartezeit.

1. April 2025Webseite

Warum deine Webseite 2025 fit für die Zukunft sein muss

Im Jahr 2025 entscheidet deine Webseite darüber, ob du online erfolgreich bist – gerade in der Schweiz, wo hohe Standards

25. März 2025Security

Cybermobbing im Visier: Wie die Schweiz auf digitale Belästigung reagieren will

Cybermobbing – eine Form der digitalen Belästigung, die immer mehr Menschen betrifft. Nicht nur in der Schweiz ist es zu

Weiterlesen
12. März 2025KI

Scam Anrufe? Nicht mit Daisy – Wie die KI-Oma von O2 Betrügern die Zeit stiehlt

Wer kennt sie nicht, die nervigen Scam Anrufe, bei denen vermeintliche Banken oder Behörden versuchen, uns mit leeren Versprechungen, Vorwänden

Weiterlesen
4. März 2025KI

VEED.io: Die smarte CapCut-Alternative

Wenn Sie auf der Suche nach einer einfachen und leistungsstarken Online-Videobearbeitungsplattform sind, dann lohnt sich ein Blick auf VEED.io. Die

Weiterlesen
Die “robots.txt” richtig verstehen und nutzen – nicht nur bei Google
Zum Inhalt springen