Die “robots.txt” richtig verstehen und nutzen – nicht nur bei Google

robots.txt

Was ist die robots.txt überhaupt genau?

Die Datei robots.txt hilft, neben anderen Instrumenten, dem Webmaster dabei, das Crawling von Suchmaschinen zu steuern. Diese Textdatei muss im Root-Verzeichnis einer Domain oder Subdomain abgelegt werden. Sie bietet die Möglichkeit, einzelnen Bots den Zugriff zu verwehren oder auch einzelne Verzeichnisse auf dem Server sperren.

Schlüsselbegriffe sind dabei „Allow“ und „Disallow“ zum Freigeben und Sperren von Verzeichnissen. Der „User-Agent“ bezeichnet dabei die Bots, auch Crawler, wie etwa den Googlebot, BingBot oder Yandex Bot. Mit dem Sternchen * lassen sich alle Verzeichnisse oder alle Bots zusammen ansprechen. Die Anweisungen sind allerdings keineswegs strikt verbindlich, sondern stellen allenfalls eine Empfehlung für die Suchmaschinen dar.

Wozu Änderungen an der robots.txt?

Neben der robots.txt gibt es mit der Noindex-Anweisung in den Meta-Tags, den Canonical Tags und den Einstellungen in der Google Search Console eine Reihe von Möglichkeiten, Crawling und Indexierung zu beeinflussen. Ziel ist es, Suchmaschinen bestimmte Inhalte vorzuenthalten, also das Crawling- und Index-Budget optimal zu nutzen.

Insbesondere bei grossen Nachrichtenseiten oder auch Webshops kann es sein, dass eines dieser Budgets zu knapp ist. Grundsätzlich gilt es daher, unnötige Duplikate zu vermeiden und hochwertige Inhalte in technisch sauberer Form bereitzustellen. Neue Rahmenbedingungen führen in diesem Kontext dazu, dass es Wünsche gibt, die Gesamt-Konfiguration anzupassen und beispielsweise auch den Inhalt der robots.txt-Datei zu ändern.

Problem Google Cache: Aktualisierung nicht in Echtzeit

Das Bearbeiten der Datei mit einem Text-Editor wie Notepad++, Abspeichern und Hochladen per FTP-Programm wie Filezilla, stellt für den findigen Webmaster im Normalfall kein Problem dar. Im Einzelfall ist die Syntax allerdings unter Umständen knifflig, weil die Reihenfolge der Anweisungen unterschiedlicher Handhabung unterliegt.

Empfehlenswert ist es, sich am Marktführer Google zu orientieren, dessen Bot zunächst alle Einträge mit „Allow“ und dann die mit „Disallow“ prüft. Andere Bots lesen einfach von oben nach unten. Hinzu kommt ein Phänomen, das Gary Illyes, ein führender Mitarbeiter bei Google, im Juli 2020 auf Twitter bestätigte. Demnach bleibt die alte robots.txt-Datei bis zu einem Tag im Google Cache, so dass die Crawling-Bedingungen vorerst unverändert bleiben.

Aktualisierung des Google Cache möglich

Das Cache-Phänomen ist unter Umständen ärgerlich und stiftet die eine oder andere Verwirrung. Es besteht jedoch die Möglichkeit, die Erneuerung zu forcieren. Diese gibt es allerdings nur in der alten Version der Google Search Console in Form des robots.txt-Testers. Dort ist es möglich, über den Button „Senden“ Google darüber zu informieren, dass die Datei just aktualisiert wurde. Laut Gary Illyes folgt daraus eine kürzere Wartezeit.

2. September 2025Webseite

Broken Link Status Codes mit Lösungsansätzen

Broken Links sind nicht nur ärgerlich für deine Besucher, sondern können auch deinem Ranking in Suchmaschinen schaden. Wer eine Website

25. August 2025Social Media

Facebook Follower einladen: So klappt es trotz Wegfall in der Meta Business Suite

Die Funktion „Facebook Follower einladen“ war lange ein beliebtes Werkzeug, um die Reichweite einer Unternehmensseite schnell und unkompliziert zu steigern.

Weiterlesen
13. August 2025KI

Textproduktion mit KI: Vergleich von Workflows und Effizienz der Tools

Workflows sind ein zentrales Thema bei der Nutzung von KI-Textgeneratoren, denn sie bestimmen, wie effizient und konsistent Inhalte erstellt werden

Weiterlesen
9. August 2025Security

Europäische Aktion gegen illegales Streaming: 22 Millionen Nutzer betroffen

Europol und neun europäische Länder haben eines der weltweit grössten Netzwerke für illegales Streaming offline genommen – und über 22

Weiterlesen
Zum Inhalt springen