Die “robots.txt” richtig verstehen und nutzen – nicht nur bei Google

robots.txt

Was ist die robots.txt überhaupt genau?

Die Datei robots.txt hilft, neben anderen Instrumenten, dem Webmaster dabei, das Crawling von Suchmaschinen zu steuern. Diese Textdatei muss im Root-Verzeichnis einer Domain oder Subdomain abgelegt werden. Sie bietet die Möglichkeit, einzelnen Bots den Zugriff zu verwehren oder auch einzelne Verzeichnisse auf dem Server sperren.

Schlüsselbegriffe sind dabei „Allow“ und „Disallow“ zum Freigeben und Sperren von Verzeichnissen. Der „User-Agent“ bezeichnet dabei die Bots, auch Crawler, wie etwa den Googlebot, BingBot oder Yandex Bot. Mit dem Sternchen * lassen sich alle Verzeichnisse oder alle Bots zusammen ansprechen. Die Anweisungen sind allerdings keineswegs strikt verbindlich, sondern stellen allenfalls eine Empfehlung für die Suchmaschinen dar.

Wozu Änderungen an der robots.txt?

Neben der robots.txt gibt es mit der Noindex-Anweisung in den Meta-Tags, den Canonical Tags und den Einstellungen in der Google Search Console eine Reihe von Möglichkeiten, Crawling und Indexierung zu beeinflussen. Ziel ist es, Suchmaschinen bestimmte Inhalte vorzuenthalten, also das Crawling- und Index-Budget optimal zu nutzen.

Insbesondere bei grossen Nachrichtenseiten oder auch Webshops kann es sein, dass eines dieser Budgets zu knapp ist. Grundsätzlich gilt es daher, unnötige Duplikate zu vermeiden und hochwertige Inhalte in technisch sauberer Form bereitzustellen. Neue Rahmenbedingungen führen in diesem Kontext dazu, dass es Wünsche gibt, die Gesamt-Konfiguration anzupassen und beispielsweise auch den Inhalt der robots.txt-Datei zu ändern.

Problem Google Cache: Aktualisierung nicht in Echtzeit

Das Bearbeiten der Datei mit einem Text-Editor wie Notepad++, Abspeichern und Hochladen per FTP-Programm wie Filezilla, stellt für den findigen Webmaster im Normalfall kein Problem dar. Im Einzelfall ist die Syntax allerdings unter Umständen knifflig, weil die Reihenfolge der Anweisungen unterschiedlicher Handhabung unterliegt.

Empfehlenswert ist es, sich am Marktführer Google zu orientieren, dessen Bot zunächst alle Einträge mit „Allow“ und dann die mit „Disallow“ prüft. Andere Bots lesen einfach von oben nach unten. Hinzu kommt ein Phänomen, das Gary Illyes, ein führender Mitarbeiter bei Google, im Juli 2020 auf Twitter bestätigte. Demnach bleibt die alte robots.txt-Datei bis zu einem Tag im Google Cache, so dass die Crawling-Bedingungen vorerst unverändert bleiben.

Aktualisierung des Google Cache möglich

Das Cache-Phänomen ist unter Umständen ärgerlich und stiftet die eine oder andere Verwirrung. Es besteht jedoch die Möglichkeit, die Erneuerung zu forcieren. Diese gibt es allerdings nur in der alten Version der Google Search Console in Form des robots.txt-Testers. Dort ist es möglich, über den Button „Senden“ Google darüber zu informieren, dass die Datei just aktualisiert wurde. Laut Gary Illyes folgt daraus eine kürzere Wartezeit.

9. Juni 2025Security

Emailadresse gehackt? Leak Check endlich für deutschsprachigen Raum

Ob in Social Media, Online-Shops oder bei Streamingdiensten – für so gut wie jeden Dienst brauchst du eine E-Mail-Adresse. Doch

8. Juni 2025Allgemein

Von Wabsti zu Voting: Das neue System zur Wahlauswertung in der Schweiz

Im Kanton Zürich kam bei drei Urnengängen im September und November 2024 sowie im Februar 2025 erstmals die neue Applikation

Weiterlesen
4. Juni 2025Security

Immobilienbetrug online: Vorsicht vor gefälschten Inseraten und Fake-Verkäufern

Immobilienbetrug im Netz ist kein Einzelfall, sondern ein weit verbreitetes Phänomen – und es betrifft nicht nur Mietwohnungen, sondern auch

Weiterlesen
2. Juni 2025Marketing

Das Markenrecht bei KI-generierten Logos

Ein Firmenlogo ist das erste, was Kunden mit einer Marke verbinden – und dank Künstlicher Intelligenz lassen sich heute in

Weiterlesen
Zum Inhalt springen