[Frage] Spider/Webcrawler wütet, Schutz?

Maranello

treuer Stammgast
Spider/Webcrawler wütet, Schutz?

Hi Leute!

Ich arbeite derzeit an einem Projekt, welches sich nur online entwickeln lässt.
Ich habe extra einen Ordnernamen genommen, den ein Nutzer nicht erraten kann.Hat bisher auch geklappt.

Seit gestern habe ich in meiner selbstprogrammierten Statistik immer um 10-12 Uhr einen extremen Ausschlag, was auf einen Webcrawler/Spider hindeutet.
Auch meine Logdatei offenbarte es: Es gab viele Fehlerlogs, weil der Crawler Logins versucht hat.

Wir haben dann intern mal einen eigenen Spider angesetzt und schon sah der Graph recht ähnlich intensiv aus.
Die Fakten sprechen also relativ deutlich für einen Webcrawler.

Was mir allerdings Sorge bereitet ist, dass dieser:

-meinen versteckten Ordner "erraten" hat, wie auch immer
-mein inoffizielles Projekt nun gescannt hat
-Heute wiedergekommen ist
-sich durch htaccess NICHT abschrecken lässt!!

Ich bitte um eure Mithilfe, denn die ganze Sache macht mir echt Sorgen.Ich hätte gedacht, dass htaccess hilft, scheint aber nicht so zu sein.
 
Was heißt "lässt sich durch htaccess nicht abschrecken" - etwa ein Passwortschutz?
Wenn dem so ist, dann werden die Daten möglicherweise durchsucht, aber es wird kein Ergebnis dabei rauskommen.
 
Also.
Ich bin bei All-Inkl.com.
Gestern habe ich versucht, einen manuellen htaccess-Schutz einzurichten.Das heißt, Nutzer & Passwortabfrage für den Main-Ordner des Projektes.
Das funktionierte NICHT.
All-Inkl.com hat auf meine Anfrage hin dann gesagt, dass ich es im KAS einstellen kann.Das habe ich getan und nun funktioniert es.

Beim gestrigen htaccess-Test konnte ich mich nicht einloggen, er erkannte die eingegebenen Daten nicht an.Deshalb dachte ich unser Testspider kann dadurch auch nicht rein!Irrtum, er konnte alles anschauen.

Ich werde heute nochmals einen Testspider durchlaufen lassen und schauen ob es über das nun gesetzte KAS-htaccess funktioniert.

Ist es denn normal so, dass htaccess völligen Spider-Schutz bietet?
 
Mal andersrum erklärt.
Deine Dateien werden in erster Linie nicht von irgendwas oder irgendwem geholt, sondern werden von deinem Webserver ausgeliefert. Dieser liefert nur aus, was freigegebern ist. Per default ist alles freigegeben.

Die Datei htaccess enthält Steuerbefehle für den Webserver, welche die unterschiedlichsten Sachen beinhalten kann.
Da du in deinem Fall warscheinlich nur Passwortschutz verwenden kannst, gibst du mit der Direktive AuthType Basic an, das du einen einfachen Authentifizierungsschutz möchtest. Mit dem AuthUserFile gibst du den Ort der Datei an, in welcher du das Passwort in verschlüsselter Form und den Benutzernamen hast. Zum Schluss sagt require valid-user, das nur Leute, die sich mit Benutzernamen und Passwort angemeldet haben, auch Daten vom Webserver ausgeliefert bekommen.

Somit kannst du dir zu 100% sicher sein, das diese Art von Schutz alles von deinem Projekt fern hält, was nicht über die erforderlichen Logindaten verfügt.

Das ein Spider Ordner errät, kann ich mir nicht vorstellen. Irgendwo hats mal einen Hinweis gegeben, der in deine Ordner führt. Normalerweise sollten deine Logs auch aufschluss darauf geben, woher der entprechende Aufruf kam. Gerade Spider kommen in der Regel nur über Links und übertragen auch den Referer mit.
 
Gamma-Ray schrieb:
Ich habe noch nie gehört, dass .htaccess unsicher sein soll.

Wenn du das wegen dem Punkt rot gemacht hast, der ist zwar üblich, aber nicht zwingender Weise immer da. Bei Webhosting sollte man sich immer schlau machen, welchen genauen Namen die Webserver Steuerdatei hat.
Es hat sich nur eingebürgert da einen Punkt vorran zu setzen, weil FTP Server Dateien, die mit einem Punkt beginnen Standartmässig verstecken. Mit dem FTP Befehl list -al bekommt man auch "punktierte" Dateien angezeigt.
 
@ Sokoban

Also, den Referer habe ich natürlich auch geloggt.Ich konnte den Spider nicht eindeutig identifizieren, aber es gab keinen Hinweis auf einen externen Link.
Auch hat nur unser Team Zugriff, in welches ich vollstes Vertrauen setzen kann.

Ist es möglich, dass All-inkl.com den htaccess nicht richtig umsetzt und der Spider weiterhin reinkommt, oder sollte es sicher sein?
Manuelles Anlegen geht ja nicht, ich kann also nicht testen ob da der Hase im Pfeffer liegt.
 
Poste halt mal die Kennung oder den Host des Spiders. Die identifizieren sich zwar alle recht komisch aber trotzdem deutlich.

Warum solltest du den htaccess Schutz nicht testen können?
Du müsstest doch auch die Aufforderung zur Eingabe von Logindaten erhalten, wenn du in das entsprechende Verzeichniss wechselst.
 
Also, klar kann ich es testen, aber es funktioniert ja nicht.Jedenfalls die manuelle Lösung.Wenn ich es im KAS mache geht es ja und ich bekomme die Maske in die ich mich erfolgreich einloggen kann.

Hier mal eine Grafik, vielleicht hilft die weiter.Alle indizierten Textstellen sind ohne Relevanz ;)
 

Anhänge

  • spider2.jpg
    spider2.jpg
    185,1 KB · Aufrufe: 184
Dann musst du eben das KAS verwenden. Ich nehme an, das du selbst keine Steuerdateien verwenden darfst und die, welche das KAS verwendet woanders liegen, wo du sie nicht sehen kannst.
Der Effekt aber ist der Selbe, dein Projekt ist 100% sicher.

Was da in deinen Logs steht, war keine Suchmaschine, sondern jemand ganz normales am PC, erkenntlich am User-Agent. MSIE 6.0 verwenden Spider nicht ;)
Die identifizieren sich so, das man es auch sieht.

Der Zugriff von Google z.B. sieht in etwa so aus:
66.249.66.113 - - [22/Dec/2005:17:09:33 +0100] "GET /verzeichniss/index.htm HTTP/1.1" 200 18621 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
 
Unser Testspider kann den Referer tarnen und wir auch in der Standardversion als Browser gekennzeichnet -> Dein Argument stimmt nicht.

Ein bösartiger Spider wird nicht so blöd sein und sich auch noch als solcher offenbaren.
 
So, der neue Spidertest war positiv für uns, d.h. er kommt nichtmehr rein.

Derzeit wütet allerdings ein weiterer Spiderangriff.Ich schalte jetzt systematisch einige Seiten weg und finde somit heraus, wo das Schlupfloch ist.

Danke für eure Hilfe ;)
 
Oben