Suchmaschinen schicken kleine Programme im Netz umher, um neue Internetseiten zu finden. Diese Suchprogramme sind unter verschiedenen Namen geläufig: crawler, spiders, robots.
Diese Programme schauen, ob eine Datei mit dem Namen robots.txt für sie bereitgehalten wird, die ihnen die Vorgehensweise vorschlägt. Darin wird meistens den Spidern erklärt, welche Dateien und Verzeichnisse nicht aufgenommen werden sollen.
Warum also sollte man solche Datei anlegen, wenn alles von den Suchmaschinen gefunden werden soll? Ganz einfach: Gibt es diese Datei nicht, wird jedes Mal, wenn ein Spider anfragt eine 404 Fehlermeldung im Log produziert.
Daher ist es praktisch, eine Basis-robots.txt im Hauptverzeichnis abzulegen mit folgendem Inhalt
# robots.txt for http://www.ihre-domainname.de/ # Zugriff auf alle Dateien erlauben User-agent: * Disallow:
Bedeutung:
die ersten 2 Zeilen mit dem # als Anfang sind nur Erklärungen ohne Wirkung.
durch den * beim User-agent ist der Zugriff durch alle Spider erwünscht.
durch keine Angaben bei Disallow ist nichts gesperrt.
Für die vorgesehene Funktion sind folgende Punkte zu beachten: