Einstellung der robots.txt Datei

  • Hallo beisammen,


    ich habe gelernt, dass man mit der folgenden Datei den Suchmaschinen hilft, die Homepage gut zu finden:

    Code
    1. # robots.txt
    2. # Zugriff auf alle Dateien erlauben
    3. User-agent: *
    4. Disallow:

    Axels Erläuterungen dazu:

    Zitat

    Durch den * beim User-agent ist der Zugriff durch alle Spider erwünscht.

    Durch fehlende Angaben hinter dem Doppelpunkt bei Disallow ist nichts gesperrt. Hier kann es z.B. Sinn machen, interne Bereiche zu sperren.

    Was er allerdings nicht erläutert: wie kann ich das richtig programmieren, wenn ich möchte, dass nur das Hauptverzeichnis "durchstöbert" wird (oder vielleicht auch nur zusammen mit einem bestimmten Verzeichnis; - z.B. \testverzeichnis ).


    Ich kann schliesslich ja nicht testen, wie bei htm Codes oder ähnlichem.


    Danke für eine Hilfe von den Experten hier im Forum.


    olkostbe

  • Hi Jav,


    würde das bedeuten, dass ich gar keine Datei "robots.txt" benötige, wenn ich nur meine Domain (also auf dem Server das Hauptverzeichnis) freigebe?


    Beispiel:

    / (hier befinden sich alle wichtigen Dateien, wie z.B. index.htm, etc.)

    /bilder (hier sind alle Bilder, etc.)

    /alte_Versionen (wie der Name schon sagt)


    Was muss ich tun damit nur "/" (in meiner Sprachweise das Hauptverzeichnis) "durchstöbert" wird. Somit nicht "/bilder" und auch nicht "/alte_Versionen"


    Den Rest habe ich jetzt verstanden. Danke schon jetzt für die Hilfe.


    olkostbe

    Dieser Beitrag wurde bereits 1 Mal editiert, zuletzt von olkostbe () aus folgendem Grund: Habe mich vermutlich mein Problem nicht richtig ausgedrückt

  • Ich würde dir disallow empfehlen und nicht allow, da allow eher für Unterverzeichnisse in gesperrten Hauptverzeichnissen gedacht ist.


    Deswegen einfach hinter disallow: alle Seiten eintragen die nicht durchcrawlt werden sollen.

    Also in deinem Beispiel dann:

    disallow: /bilder

    /alte_versionen


  • So, mit leichter Verspätung geht's weiter ...


    Also, keine robots.txt führt zu vielen 404-Einträgen im error-log, weil ja doch ständig irgendwelche Suchmaschinen nach der robots.txt fragen. Schon deshalb würde ich die Datei anlegen, notfalls auch völlig leer.


    Um nur den Zugriff auf dein Hauptverzeichnis (also der "obersten Ebene" auf deiner Domain; dort, wo die index.html oder index.php liegt) zuzulassen und den Zugriff auf Ordner im Hauptverzeichnis zu sperren, wäre die robots.txt so anzulegen:

    1. User-agent: *
    2. Disallow: /bilder/
    3. Disallow: /erlaubtesVerzeichnis/


    Anzumerken bleibt: Keine Suchmaschine / Crawler / Spider muss sich an die Angaben in der robots.txt halten. Ob sie das tun, liegt allein in deren Ermessen.