Suche nach Webseiten mit NoIndex/NoFollow mit WebCrawler

Flo1993

treuer Stammgast
Hi, ich suche einen WebCrawler der mir automatisch alle "Unterseiten" einer Webpage findet, die NoIndex oder Nofollow "an" haben (also von Google und co nicht gefunden werden kann).
Also zB: ich gebe dem Programm eine Webseite vor: "www.beispiel.de" und er sucht jede Seite ab die mit "www.beispiel.de/" anfängt und spuckt mir die Seiten mit NoIndex oder NoFollow in einer Liste oder so aus.

Keine Angst es geht hier um nichts illegales, ich will nur meine eigene Webseite überprüfen.
Kann auch für Linux sein, spez. Debian/Ubuntu, oder halt für Windoof.
Vielen Dank schonmal!
Flo
 
Der beste OpenSource-Crawler ist, meiner Meinung nach, HTTrack.
Einfach "Automatische Web-Site-Kopie" auswählen und in den Kopieroptionen im Reiter "Spider" die "Regeln in robots.txt ignorieren" Option aktivieren (siehe angehängte Screenshots!).

Die gesamte Webseite wird kopiert, danach kannst du ja sehen, welche Seiten mitkopiert wurden. Alternativ befindet sich im Projektordner ein Ordner "hts-cache" mit einem zip-File "new.zip". "new.zip" enthält die Verzechnisstruktur der Webseite ohne Inhalte, welche für Aktualisierungen verwendet werden kann.

Falls bestimmte Browser-IDs blokiert werden, kannst du dich auch noch als Google-Bot ausgeben.

Gruß,
bastla :)

Edit: Nicht vergessen den Grenzwert für die Tiefe externe Seiten auf "0" zu setzen, du willst schließlich nicht zum Mirror des halben Netzes werden ;)
 

Anhänge

  • winhttrack_ignore-robots_001.png
    winhttrack_ignore-robots_001.png
    128,6 KB · Aufrufe: 464
  • winhttrack_ignore-robots_002.png
    winhttrack_ignore-robots_002.png
    164,4 KB · Aufrufe: 507
Zuletzt bearbeitet:
Des Program ist super nur des Problem ist, dass es sowohl "normale" wie auch die NoIndex/NoFollow Seiten speichert, doch bräuchte aber nur die NoIndex/NoFollow Seiten.
 
Ich würde mir mithilfe von AstroGrep alle HTML-Dateien suchen lassen ,
welche die gesuchten Wörter enthalten.
Praktischerweise kann man da das Toplevel - Verzeichnis angeben.

hth
 
Oben