Einstellung der robots.txt Datei

olkostbe

Hallo beisammen,

ich habe gelernt, dass man mit der folgenden Datei den Suchmaschinen hilft, die Homepage gut zu finden:

Code

# robots.txt
# Zugriff auf alle Dateien erlauben
User-agent: *
Disallow:

Axels Erläuterungen dazu:

Zitat

Durch den * beim User-agent ist der Zugriff durch alle Spider erwünscht.

Durch fehlende Angaben hinter dem Doppelpunkt bei Disallow ist nichts gesperrt. Hier kann es z.B. Sinn machen, interne Bereiche zu sperren.

Was er allerdings nicht erläutert: wie kann ich das richtig programmieren, wenn ich möchte, dass nur das Hauptverzeichnis "durchstöbert" wird (oder vielleicht auch nur zusammen mit einem bestimmten Verzeichnis; - z.B. \testverzeichnis ).

Ich kann schliesslich ja nicht testen, wie bei htm Codes oder ähnlichem.

Danke für eine Hilfe von den Experten hier im Forum.

olkostbe

Jav

Inzwischen ist auch Allow möglich:

User-agent: *
Disallow: /
Allow: /erlaubtesVerzeichnis/

olkostbe

Danke Jav,

Damit habe ich schon mal eine Ahnung, wie Unterverzeichnisse angezeigt werden müssen (in beiden Richtungen).

Wenn ich jetzt aber nur das Hauptverzeichnis erlauben will - wie mache ich das korrekterweise?

Danke schon mal im Vorfeld.

Jav

was meinst du mit "Hauptverzeichnis" ? Das Hauptverzeichnis ist deine Domain. "Darüber" ist ein Zugriff nicht möglich.

Dein Hauptverzeichnis - also alle Verzeichnisse deiner Domain - gibst du frei wie schon oben geschrieben:

User-agent: *
Disallow:

olkostbe

Hi Jav,

würde das bedeuten, dass ich gar keine Datei "robots.txt" benötige, wenn ich nur meine Domain (also auf dem Server das Hauptverzeichnis) freigebe?

Beispiel:

/ (hier befinden sich alle wichtigen Dateien, wie z.B. index.htm, etc.)

/bilder (hier sind alle Bilder, etc.)

/alte_Versionen (wie der Name schon sagt)

Was muss ich tun damit nur "/" (in meiner Sprachweise das Hauptverzeichnis) "durchstöbert" wird. Somit nicht "/bilder" und auch nicht "/alte_Versionen"

Den Rest habe ich jetzt verstanden. Danke schon jetzt für die Hilfe.

olkostbe

olkostbe

Darf ich diese Frage aus der #5 oben nochmals aktivieren?

Im Grunde genommen will ich nur sicher gehen, dass ich Jav Kommentar in #2 richtig verstanden habe.

Danke

ronsenbonsen

Ich würde dir disallow empfehlen und nicht allow, da allow eher für Unterverzeichnisse in gesperrten Hauptverzeichnissen gedacht ist.

Deswegen einfach hinter disallow: alle Seiten eintragen die nicht durchcrawlt werden sollen.

Also in deinem Beispiel dann:

disallow: /bilder

/alte_versionen

Jav

Zitat von olkostbe

Hi Jav,

würde das bedeuten, dass ich gar keine Datei "robots.txt" benötige, wenn ich nur meine Domain (also auf dem Server das Hauptverzeichnis) freigebe?

Beispiel:

/ (hier befinden sich alle wichtigen Dateien, wie z.B. index.htm, etc.)

/bilder (hier sind alle Bilder, etc.)

/alte_Versionen (wie der Name schon sagt)

Was muss ich tun damit nur "/" (in meiner Sprachweise das Hauptverzeichnis) "durchstöbert" wird. Somit nicht "/bilder" und auch nicht "/alte_Versionen"

Den Rest habe ich jetzt verstanden. Danke schon jetzt für die Hilfe.

olkostbe

Alles anzeigen

So, mit leichter Verspätung geht's weiter ...

Also, keine robots.txt führt zu vielen 404-Einträgen im error-log, weil ja doch ständig irgendwelche Suchmaschinen nach der robots.txt fragen. Schon deshalb würde ich die Datei anlegen, notfalls auch völlig leer.

Um nur den Zugriff auf dein Hauptverzeichnis (also der "obersten Ebene" auf deiner Domain; dort, wo die index.html oder index.php liegt) zuzulassen und den Zugriff auf Ordner im Hauptverzeichnis zu sperren, wäre die robots.txt so anzulegen:

User-agent: *
Disallow: /bilder/
Disallow: /erlaubtesVerzeichnis/

Anzumerken bleibt: Keine Suchmaschine / Crawler / Spider muss sich an die Angaben in der robots.txt halten. Ob sie das tun, liegt allein in deren Ermessen.

olkostbe

Alles verstanden. Danke für die finale Klärung an Alle.

Jetzt mitmachen!