robots.txt - was es mit dieser ominösen Datei auf sich hat

Suchmaschinen schicken kleine Programme im Netz umher, um neue Internetseiten zu finden. Diese Suchprogramme sind unter verschiedenen Namen geläufig: crawler, spiders, robots.

Diese Programme schauen, ob eine Datei mit dem Namen robots.txt für sie bereitgehalten wird, die ihnen die Vorgehensweise vorschlägt. Darin wird meistens den Spidern erklärt, welche Dateien und Verzeichnisse nicht aufgenommen werden sollen.

Warum also sollte man solche Datei anlegen, wenn alles von den Suchmaschinen gefunden werden soll? Ganz einfach: Gibt es diese Datei nicht, wird jedes Mal, wenn ein Spider anfragt eine 404 Fehlermeldung im Log produziert.

Daher ist es praktisch, eine Basis-robots.txt im Hauptverzeichnis abzulegen mit folgendem Inhalt

# robots.txt for http://www.ihre-domainname.de/
# Zugriff auf alle Dateien erlauben
User-agent: *
Disallow:

Bedeutung:
die ersten 2 Zeilen mit dem # als Anfang sind nur Erklärungen ohne Wirkung.

durch den * beim User-agent ist der Zugriff durch alle Spider erwünscht.

durch keine Angaben bei Disallow ist nichts gesperrt.

zu beachten

Für die vorgesehene Funktion sind folgende Punkte zu beachten:

  • die Schreibung der Datei muss exakt so sein - also alles klein: "robots.txt".
  • die robots.txt muss im Hauptverzeichnis abgelegt werden.
  • beim Erstellen sollten Sie einen reinen Texteditor verwenden, damit nicht irgendwelche Sonderzeichen reinrutschen. Geeignete Editoren sind unter Windows das notepad.exe, unter DOS der edit.com und vi unter Linux.
  • beim Übertragen auf den Webserver muss die Datei im ASCII Modus übertragen werden.
vorheriges Kapitel: Suchmaschinen
nächstes Kapitel: Domainnamen
SuchmaschinenSeitenanfangDomainnamen
eBook HTML-Seminar.de
del.icio.usMister Wong         SuchmaschinenSeitenanfangDomainnamen
© 2000-2010 Axel Pratzner • www.html-seminar.de • Stand 22.06.2010
Wir freuen uns über Weiterempfehlungen und Links zu www.html-seminar.de