Die „robots.txt“ richtig verstehen und nutzen – nicht nur bei Google

Von Roger Klein
am 25.09.2020
in der Kategorie Webseite
veröffentlicht.

Was ist die robots.txt überhaupt genau?

Die Datei robots.txt hilft, neben anderen Instrumenten, dem Webmaster dabei, das Crawling von Suchmaschinen zu steuern. Diese Textdatei muss im Root-Verzeichnis einer Domain oder Subdomain abgelegt werden. Sie bietet die Möglichkeit, einzelnen Bots den Zugriff zu verwehren oder auch einzelne Verzeichnisse auf dem Server sperren.

Schlüsselbegriffe sind dabei „Allow“ und „Disallow“ zum Freigeben und Sperren von Verzeichnissen. Der „User-Agent“ bezeichnet dabei die Bots, auch Crawler, wie etwa den Googlebot, BingBot oder Yandex Bot. Mit dem Sternchen * lassen sich alle Verzeichnisse oder alle Bots zusammen ansprechen. Die Anweisungen sind allerdings keineswegs strikt verbindlich, sondern stellen allenfalls eine Empfehlung für die Suchmaschinen dar.

Wozu Änderungen an der robots.txt?

Neben der robots.txt gibt es mit der Noindex-Anweisung in den Meta-Tags, den Canonical Tags und den Einstellungen in der Google Search Console eine Reihe von Möglichkeiten, Crawling und Indexierung zu beeinflussen. Ziel ist es, Suchmaschinen bestimmte Inhalte vorzuenthalten, also das Crawling- und Index-Budget optimal zu nutzen.

Insbesondere bei grossen Nachrichtenseiten oder auch Webshops kann es sein, dass eines dieser Budgets zu knapp ist. Grundsätzlich gilt es daher, unnötige Duplikate zu vermeiden und hochwertige Inhalte in technisch sauberer Form bereitzustellen. Neue Rahmenbedingungen führen in diesem Kontext dazu, dass es Wünsche gibt, die Gesamt-Konfiguration anzupassen und beispielsweise auch den Inhalt der robots.txt-Datei zu ändern.

Problem Google Cache: Aktualisierung nicht in Echtzeit

Das Bearbeiten der Datei mit einem Text-Editor wie Notepad++, Abspeichern und Hochladen per FTP-Programm wie Filezilla, stellt für den findigen Webmaster im Normalfall kein Problem dar. Im Einzelfall ist die Syntax allerdings unter Umständen knifflig, weil die Reihenfolge der Anweisungen unterschiedlicher Handhabung unterliegt.

Empfehlenswert ist es, sich am Marktführer Google zu orientieren, dessen Bot zunächst alle Einträge mit „Allow“ und dann die mit „Disallow“ prüft. Andere Bots lesen einfach von oben nach unten. Hinzu kommt ein Phänomen, das Gary Illyes, ein führender Mitarbeiter bei Google, im Juli 2020 auf Twitter bestätigte. Demnach bleibt die alte robots.txt-Datei bis zu einem Tag im Google Cache, so dass die Crawling-Bedingungen vorerst unverändert bleiben.

Aktualisierung des Google Cache möglich

Das Cache-Phänomen ist unter Umständen ärgerlich und stiftet die eine oder andere Verwirrung. Es besteht jedoch die Möglichkeit, die Erneuerung zu forcieren. Diese gibt es allerdings nur in der alten Version der Google Search Console in Form des robots.txt-Testers. Dort ist es möglich, über den Button „Senden“ Google darüber zu informieren, dass die Datei just aktualisiert wurde. Laut Gary Illyes folgt daraus eine kürzere Wartezeit.

Wir bloggen zu

23. Januar 2024Datenschutz

KI Urheberrecht: Endlose laufende Debatten

Das KI Urheberrecht bei erstellten Inhalten wie Texten, Bildern usw. ist komplex und variiert je nach Rechtsprechung und den geltenden

16. Januar 2024Analyse

Digitaler Euro: Info-Sammlung mit 7 Fakten

Ein digitaler Euro könnte das europäische Finanzsystem transformieren und neue Möglichkeiten für digitale Zahlungen und Transaktionen schaffen. Es gibt jedoch

11. Januar 2024Security

Transparenz statt Täuschung: EU-Kommission fordert Offenlegung zu Fake Posts

Die EU-Kommission fordert diverse Social Media Plattformen aufgrund des Israel-Konflikts zur Offenlegung ihrer Massnahmen gegen Fake Posts, Falschinformationen und Hassrede

5. Januar 2024Analyse

Schockierende Trends in der Mediennutzung durch Jugendliche

Alle Jahre wieder führt "Addiction Suisse" Studien unter anderem zur Mediennutzung durch Kinder im Schulalter durch. In den zuletzt präsentierten

Die „robots.txt“ richtig verstehen und nutzen – nicht nur bei Google

Haben Sie Fragen zu diesem Thema? Einfach melden.

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Speichert die Einstellungen der Besucher, die in der Cookie Box von Borlabs Cookie ausgewählt wurden.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Elementor
Anbieter	Elementor Inc. Tuval 40, Ramat Gan, IL
Zweck	Die Webseite ist mit Elementor aufgebaut und speichert Daten um die Webseite grafisch korrekt darzustellen.
Datenschutzerklärung	https://elementor.com/about/privacy/
Host(s)	elementor.com
Cookie Name	elementor-cookie

Name	iThemes Security
Anbieter	Privacy Matters, c/o Liquid Web, LLC, Attn: Director of Security , 2703 Ena Drive, Lansing MI 48917, USA
Zweck	Zur Sicherheit der Webseite und zur verhinderung von jeglichen Hacker- und Spam Angriffen.
Datenschutzerklärung	https://ithemes.com/privacy-policy/
Host(s)	ithemes.com
Cookie Name	ithemes-security

Akzeptieren	Google Analytics
Name	Google Analytics
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google für Website-Analysen. Erzeugt statistische Daten darüber, wie der Besucher die Website nutzt.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Monate

Akzeptieren	Facebook
Name	Facebook
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Wird verwendet, um Facebook-Inhalte zu entsperren.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com

Akzeptieren	Vimeo
Name	Vimeo
Anbieter	Vimeo Inc., 555 West 18th Street, New York, New York 10011, USA
Zweck	Wird verwendet, um Vimeo-Inhalte zu entsperren.
Datenschutzerklärung	https://vimeo.com/privacy
Host(s)	player.vimeo.com
Cookie Name	vuid
Cookie Laufzeit	2 Jahre