Die Robots.txt ist eine Textdatei, die im Hauptverzeichnis einer Website platziert wird, um Suchmaschinen-Crawlern (manchmal als Bots oder Spider bezeichnet) Anweisungen zu erteilen, welche Bereiche der Webseite indexiert oder ignoriert werden sollen. Diese Datei dient als Richtlinie für das Crawling und die Indexierung einer Website durch Suchmaschinen.
In der Robots.txt-Datei können Website-Administratoren spezifische Anweisungen geben, wie Suchmaschinenroboter mit den Inhalten ihrer Sites umgehen sollen. Die Datei verwendet das "Robots Exclusion Protocol" (REP), ein Web-Standard, der es ermöglicht, den Zugriff der Automatischen Agenten auf bestimmte Teile einer Website zu regulieren.
User-agent: *
gefolgt von Disallow: /
wird allen Crawlern der Zugriff auf die gesamte Webseite verweigert.User-agent: *
gefolgt von Disallow:
(ohne weitere Angaben) gestattet allen Crawlern den Zugriff auf alle Bereiche der Webseite.User-agent: Googlebot
und Disallow:
implementiert, um Google vollen Zugriff zu gewähren, während andere mit User-agent: *
und Disallow: /
geblockt werden.Die Verwendung dieser Datei hat direkte Auswirkungen auf das Suchmaschinenranking, da sie beeinflusst, welche Seiten indexiert werden und welche nicht. Außerdem hilft sie, Serverressourcen zu sparen, indem sie vermeidet, dass Crawler unnötige oder sensible Bereiche einer Website durchsuchen. Wichtig ist jedoch, dass die Robots.txt keine sicherheitsrelevante Funktion bietet und die angegebenen Regeln von bösartigen Bots leicht ignoriert werden können.
Innerhalb des Kontexts der Crawler-Steuerung und Web-Administration werden folgende Begriffe synonym verwendet: