Die “robots.txt” richtig verstehen und nutzen – nicht nur bei Google

Was ist die robots.txt überhaupt genau?

Die Datei robots.txt hilft, neben anderen Instrumenten, dem Webmaster dabei, das Crawling von Suchmaschinen zu steuern. Diese Textdatei muss im Root-Verzeichnis einer Domain oder Subdomain abgelegt werden. Sie bietet die Möglichkeit, einzelnen Bots den Zugriff zu verwehren oder auch einzelne Verzeichnisse auf dem Server sperren.

Schlüsselbegriffe sind dabei „Allow“ und „Disallow“ zum Freigeben und Sperren von Verzeichnissen. Der „User-Agent“ bezeichnet dabei die Bots, auch Crawler, wie etwa den Googlebot, BingBot oder Yandex Bot. Mit dem Sternchen * lassen sich alle Verzeichnisse oder alle Bots zusammen ansprechen. Die Anweisungen sind allerdings keineswegs strikt verbindlich, sondern stellen allenfalls eine Empfehlung für die Suchmaschinen dar.

Wozu Änderungen an der robots.txt?

Neben der robots.txt gibt es mit der Noindex-Anweisung in den Meta-Tags, den Canonical Tags und den Einstellungen in der Google Search Console eine Reihe von Möglichkeiten, Crawling und Indexierung zu beeinflussen. Ziel ist es, Suchmaschinen bestimmte Inhalte vorzuenthalten, also das Crawling- und Index-Budget optimal zu nutzen.

Insbesondere bei grossen Nachrichtenseiten oder auch Webshops kann es sein, dass eines dieser Budgets zu knapp ist. Grundsätzlich gilt es daher, unnötige Duplikate zu vermeiden und hochwertige Inhalte in technisch sauberer Form bereitzustellen. Neue Rahmenbedingungen führen in diesem Kontext dazu, dass es Wünsche gibt, die Gesamt-Konfiguration anzupassen und beispielsweise auch den Inhalt der robots.txt-Datei zu ändern.

Problem Google Cache: Aktualisierung nicht in Echtzeit

Das Bearbeiten der Datei mit einem Text-Editor wie Notepad++, Abspeichern und Hochladen per FTP-Programm wie Filezilla, stellt für den findigen Webmaster im Normalfall kein Problem dar. Im Einzelfall ist die Syntax allerdings unter Umständen knifflig, weil die Reihenfolge der Anweisungen unterschiedlicher Handhabung unterliegt.

Empfehlenswert ist es, sich am Marktführer Google zu orientieren, dessen Bot zunächst alle Einträge mit „Allow“ und dann die mit „Disallow“ prüft. Andere Bots lesen einfach von oben nach unten. Hinzu kommt ein Phänomen, das Gary Illyes, ein führender Mitarbeiter bei Google, im Juli 2020 auf Twitter bestätigte. Demnach bleibt die alte robots.txt-Datei bis zu einem Tag im Google Cache, so dass die Crawling-Bedingungen vorerst unverändert bleiben.

Aktualisierung des Google Cache möglich

Das Cache-Phänomen ist unter Umständen ärgerlich und stiftet die eine oder andere Verwirrung. Es besteht jedoch die Möglichkeit, die Erneuerung zu forcieren. Diese gibt es allerdings nur in der alten Version der Google Search Console in Form des robots.txt-Testers. Dort ist es möglich, über den Button „Senden“ Google darüber zu informieren, dass die Datei just aktualisiert wurde. Laut Gary Illyes folgt daraus eine kürzere Wartezeit.

18. November 2024SEO

Helpful Content laut Google: Mehrwert statt Keywords

Das „Helpful Content Update“ von Google hat die SEO-Welt nachhaltig verändert. Während Keywords und klassische SEO-Taktiken früher das A und

14. November 2024Webshop

Webshop-Inkasso: Praktische Tipps und rechtliche Grundlagen

Erfahren Sie alles Wichtige rund um das Thema Webshop-Inkasso. Für Betreiber von Webshops ist es ein unvermeidbarer Bestandteil des Geschäftsalltags:

Weiterlesen
11. November 2024Marketing

Darum ist Zufriedenheitsgarantie in der Schweiz ein starkes Marketinginstrument

Die Zufriedenheitsgarantie ist mehr als nur ein wohlklingendes Versprechen – sie ist ein effektives Marketinginstrument. In einem Markt, der von

Weiterlesen
7. November 2024Allgemein

KI Stofftier Moflin von Casio soll mit künstlicher Intelligenz Persönlichkeit entwickeln

Künstliche Intelligenz (KI) findet immer mehr Anwendung in unserem Alltag – sei es in Smartphones, Haushaltsgeräten oder sogar in der

Weiterlesen
Die “robots.txt” richtig verstehen und nutzen – nicht nur bei Google
Haben Sie Fragen zu diesem Thema? Einfach melden.
Zum Inhalt springen