robots.txt - was es mit dieser ominösen Datei auf sich hat

Suchmaschinen schicken kleine Programme im Netz umher, um neue Internetseiten zu finden. Diese Suchprogramme sind unter verschiedenen Namen geläufig: crawler, spiders, robots.

Diese Programme schauen, ob eine Datei mit dem Namen robots.txt für sie bereitgehalten wird, die ihnen die Vorgehensweise vorschlägt. Darin wird meistens den Spidern erklärt, welche Dateien und Verzeichnisse nicht aufgenommen werden sollen.

Warum also sollte man solche Datei anlegen, wenn alles von den Suchmaschinen gefunden werden soll? Ganz einfach: Gibt es diese Datei nicht, wird jedes Mal, wenn ein Spider anfragt eine 404 Fehlermeldung im Log produziert.

Daher ist es praktisch, eine Basis-robots.txt im Hauptverzeichnis abzulegen mit folgendem Inhalt

# robots.txt
# Zugriff auf alle Dateien erlauben
User-agent: *
Disallow:

Diese Datei kann auch direkt über den Browser aufgerufen werden. Einfach nach dem Domainnamen das robots.txt anhängen und in die Browserzeile eingeben:
https://www.html-seminar.de/robots.txt

Bedeutung:
die ersten 2 Zeilen mit dem # als Anfang sind nur Erklärungen ohne Wirkung.

Durch den * beim User-agent ist der Zugriff durch alle Spider erwünscht.

Durch fehlende Angaben hinter dem Doppelpunkt bei Disallow ist nichts gesperrt. Hier kann es z.B. Sinn machen, interne Bereiche zu sperren.

zu beachten bei Nutzung von robots.txt

Für die vorgesehene Funktion sind folgende Punkte zu beachten:

die Schreibung der Datei muss exakt so sein - also alles klein: "robots.txt".
die robots.txt muss im Hauptverzeichnis abgelegt werden.
beim Erstellen sollten Sie einen reinen Texteditor verwenden, damit nicht irgendwelche Sonderzeichen reinrutschen. Geeignete Editoren sind unter Windows das editor.exe und vi unter Linux.
beim Übertragen auf den Webserver muss die Datei im ASCII Modus übertragen werden.

Tipp: die folgende robots.txt-Datei einfach über den Browser anzeigen und im Browser dann über "Seite speichern unter" für die eigene Website speichern.

sitemap.xml in robots.txt hinterlegen

Einen Verweis auf die sitemap.xml kann sehr einfach in der robots.txt hinterlegt werden. Das hat den Vorteil, dass kleinere Suchmaschinen die sitemap.xml direkt finden. Für Google hinterlegt man den Pfad der sitemap.xml direkt in der Google Search Console!

# robots.txt
# Zugriff auf alle Dateien erlauben
User-agent: *
Disallow:

Sitemap: https://www.html-seminar.de/sitemap.xml

Mehr über die sitemap.xml und deren Aufbau und Struktur.

Weiterempfehlen • Social Bookmarks • Vielen Dank

max-image-preview - Bilder größer in Bildersuche Sitemap nutzen

Bitte unterstützen

Bitte unterstützen Sie dieses Projekt

Sie können dieses Projekt in verschiedenen Formen unterstützen - wir würden uns freuen und es würde uns für weitere Inhalte motivieren :).

unsere Videos bestellen

Unsere Videos und eBooks bestellen.

Spenden

Sie können uns eine Spende über PayPal zukommen lassen.

Weiterempfehlungen

Empfehlen Sie es weiter - wir freuen uns immer über Links und Facebook-Empfehlungen.

Bücher über Amazon

Bestellen Sie Bücher über folgende Links bei Amazon:

Vielen Dank für Ihre Hilfe

E-Books zum Kurs
von HTML-Seminar.de
E-Books mit rund 930 Seiten Umfang als PDF. Alle 3 zu einem Preis.

Mehr Details

robots.txt - was es mit dieser ominösen Datei auf sich hat

zu beachten bei Nutzung von robots.txt

sitemap.xml in robots.txt hinterlegen

Weiterempfehlen • Social Bookmarks • Vielen Dank

Bitte unterstützen Sie dieses Projekt

E-Books zum Kurs