Spider Fallen

olkostbe

Hallo,

ich habe gelesen, dass man über eine Honigtopf - Falle eventuelle spider Programme daran hindern kann, durch das Verzeichnis zu krabbeln, auch wenn man in der robot.txt das ausdrücklich unterbinden will.

Hat jemand damit Erfahrung und könnte er das mal kommentieren (Vor- und Nachteile)?

Danke

olksotbe

m.scatello

Ein Honeypot wird eigentlich bei Formularen eingesetzt. Man definiert ein Feld, das per CSS nicht sichtbar ist, aber von Bots in der Regel ausgefüllt wird. Bei der Überprüfung der Formulardaten kann man so feststellen, ob das Formular von einem Menschen oder von einem Bot gesendet wurde.

DER

Ergänzend: Vorteil ist schlichtweg die Einfachheit. Ein weiteres Formularfeld und die dazugehörige CSS anweisung ist schnell gemacht. Der Nachteil allerdings ist, dass es nicht besonders sicher ist. Ein Bot lässt sich nämlich ebenso leicht umprogrammieren dass er solche Felder erkennt.

Dazu fällt mir witzigerweise eine andere Methode ein, dich ich mir soeben erdacht habe. Wenn man das ganze Spiel umdreht, wird es schon schwerer. Also: Ein Formularfeld hinzufügen mit der ausdrücklichen Anweisung der User solle dieses nicht ausfüllen.

olkostbe

Hallo,

Danke für die Kommentare. Die Ideen hier fand ich ganz interessant. Die Formularfelder, die ich bisher erstellt habe, habe ich (neben den üblichen Eingabeüberprüfungen der User) eher mit einer zufälligen Rechenaufgabe garniert und nicht mit einem Honigtopf. Daher waren die Anregungen hier ganz interessant. Werde ich vielleicht mal beim nächsten Mal überdenken.

Die eigentliche Frage von oben, - den Honigtopf anzuwenden bei "Krabbeleien" in den Verzeichnissen, obwohl das in der robots.txt ausdrücklich nicht gewünscht ist, - hat noch keiner kommentiert.

olkostbe

Arne Drews

Die robots.txt ist kein Gesetz, sondern eine Richtlinie. Man kann sich daran halten, wenn man möchte.

Seriöse Bots halten sich daran, andere interessiert das nicht.

Dir bringt auch ein Honey-Pot an der Stelle nichts. Die Crawler/Bots füllen keine Formulare aus, sondern ziehen sich den Quelltext der Dokumente.

Schau Dir an, wie das Konsolenprogramm wget unter Linux arbeitet und beachte dort den Parameter -e.

olkostbe

Hi Arne,

Dein link ist echt informativ. Danke. Zeigt auch, wie einfach man die Richtlinie aushebeln kann. War mir in der Form noch nicht so klar.

Dass die robots.txt nur eine Richtlinie ist, ist mir nun klar. Wer sich nicht daran hält; - der ist für mich einfach mal grundsätzlich nicht seriös (nur meine private Meinung).

Vielleicht sollte ich mich in der Fragestellung konkretisieren:

- Der Honigtopf, den ich da setzten wollte, sollte als Konsequenz mit einer Sperrung der krabbelnden IP in der .htacess Datei enden (somit zukünftig keinen Zugriff auf meine Seite haben) und mich zusätzlich darüber informieren. Hier einen link: Webcrawler aussperren, die robot.txt ignorieren, der sowas mal anspricht.

- Der link ist aber für mich nur als Idee gedacht. In der reinen Form wie dort dargestellt, hatte ich es nicht vor. Lasse mich aber von den Experten hier im Forum gerne auf den Boden der Tatsachen (Machbarkeit und Realität) runterbringen.

Grüße

olkostbe

Arne Drews

Ok, sowas verstehe ich nicht unter einem Honeypot, aber das mag Definitionssache sein.

Das Vorgehen ist durchaus anwendbar und relativ einfach umzusetzen, wie dort beschrieben ist.

Ich würde sogar soweit gehen und für den Fall gleich das Script dahingehend erweitern, dass die Daten in einer Datei oder Datenbank gesammelt werden.

Dann habe ich die Möglichkeit zu entscheiden, was passieren soll.

Die IP-Adresse ist aber leider nicht allzu zuverlässig, denn echte, unseriöse Bots wechseln die regelmässig.

Jetzt mitmachen!