Einstellung der robots.txt Datei

  • Hallo beisammen,


    ich habe gelernt, dass man mit der folgenden Datei den Suchmaschinen hilft, die Homepage gut zu finden:

    Code
    # robots.txt
    # Zugriff auf alle Dateien erlauben
    User-agent: *
    Disallow:

    Axels Erläuterungen dazu:

    Zitat

    Durch den * beim User-agent ist der Zugriff durch alle Spider erwünscht.

    Durch fehlende Angaben hinter dem Doppelpunkt bei Disallow ist nichts gesperrt. Hier kann es z.B. Sinn machen, interne Bereiche zu sperren.

    Was er allerdings nicht erläutert: wie kann ich das richtig programmieren, wenn ich möchte, dass nur das Hauptverzeichnis "durchstöbert" wird (oder vielleicht auch nur zusammen mit einem bestimmten Verzeichnis; - z.B. \testverzeichnis ).


    Ich kann schliesslich ja nicht testen, wie bei htm Codes oder ähnlichem.


    Danke für eine Hilfe von den Experten hier im Forum.


    olkostbe

  • Danke Jav,


    Damit habe ich schon mal eine Ahnung, wie Unterverzeichnisse angezeigt werden müssen (in beiden Richtungen).


    Wenn ich jetzt aber nur das Hauptverzeichnis erlauben will - wie mache ich das korrekterweise?


    Danke schon mal im Vorfeld.

  • was meinst du mit "Hauptverzeichnis" ? Das Hauptverzeichnis ist deine Domain. "Darüber" ist ein Zugriff nicht möglich.


    Dein Hauptverzeichnis - also alle Verzeichnisse deiner Domain - gibst du frei wie schon oben geschrieben:

    1. User-agent: *
    2. Disallow:
  • Hi Jav,


    würde das bedeuten, dass ich gar keine Datei "robots.txt" benötige, wenn ich nur meine Domain (also auf dem Server das Hauptverzeichnis) freigebe?


    Beispiel:

    / (hier befinden sich alle wichtigen Dateien, wie z.B. index.htm, etc.)

    /bilder (hier sind alle Bilder, etc.)

    /alte_Versionen (wie der Name schon sagt)


    Was muss ich tun damit nur "/" (in meiner Sprachweise das Hauptverzeichnis) "durchstöbert" wird. Somit nicht "/bilder" und auch nicht "/alte_Versionen"


    Den Rest habe ich jetzt verstanden. Danke schon jetzt für die Hilfe.


    olkostbe

    Einmal editiert, zuletzt von olkostbe () aus folgendem Grund: Habe mich vermutlich mein Problem nicht richtig ausgedrückt

  • Ich würde dir disallow empfehlen und nicht allow, da allow eher für Unterverzeichnisse in gesperrten Hauptverzeichnissen gedacht ist.


    Deswegen einfach hinter disallow: alle Seiten eintragen die nicht durchcrawlt werden sollen.

    Also in deinem Beispiel dann:

    disallow: /bilder

    /alte_versionen


  • So, mit leichter Verspätung geht's weiter ...


    Also, keine robots.txt führt zu vielen 404-Einträgen im error-log, weil ja doch ständig irgendwelche Suchmaschinen nach der robots.txt fragen. Schon deshalb würde ich die Datei anlegen, notfalls auch völlig leer.


    Um nur den Zugriff auf dein Hauptverzeichnis (also der "obersten Ebene" auf deiner Domain; dort, wo die index.html oder index.php liegt) zuzulassen und den Zugriff auf Ordner im Hauptverzeichnis zu sperren, wäre die robots.txt so anzulegen:

    1. User-agent: *
    2. Disallow: /bilder/
    3. Disallow: /erlaubtesVerzeichnis/


    Anzumerken bleibt: Keine Suchmaschine / Crawler / Spider muss sich an die Angaben in der robots.txt halten. Ob sie das tun, liegt allein in deren Ermessen.

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!