Suche nach Webseiten mit NoIndex/NoFollow mit WebCrawler

Flo1993 · 5 September 2013

Hi, ich suche einen WebCrawler der mir automatisch alle "Unterseiten" einer Webpage findet, die NoIndex oder Nofollow "an" haben (also von Google und co nicht gefunden werden kann).
Also zB: ich gebe dem Programm eine Webseite vor: "www.beispiel.de" und er sucht jede Seite ab die mit "www.beispiel.de/" anfängt und spuckt mir die Seiten mit NoIndex oder NoFollow in einer Liste oder so aus.

Keine Angst es geht hier um nichts illegales, ich will nur meine eigene Webseite überprüfen.
Kann auch für Linux sein, spez. Debian/Ubuntu, oder halt für Windoof.
Vielen Dank schonmal!
Flo

Bullabeisser · 6 September 2013

Der hier WebSpider 2 Übersicht | xaldon Technologies GmbH kriegt die gesamte Website. Nennt sich Webspider 2

bastla · 7 September 2013

Der beste OpenSource-Crawler ist, meiner Meinung nach, HTTrack.
Einfach "Automatische Web-Site-Kopie" auswählen und in den Kopieroptionen im Reiter "Spider" die "Regeln in robots.txt ignorieren" Option aktivieren (siehe angehängte Screenshots!).

Die gesamte Webseite wird kopiert, danach kannst du ja sehen, welche Seiten mitkopiert wurden. Alternativ befindet sich im Projektordner ein Ordner "hts-cache" mit einem zip-File "new.zip". "new.zip" enthält die Verzechnisstruktur der Webseite ohne Inhalte, welche für Aktualisierungen verwendet werden kann.

Falls bestimmte Browser-IDs blokiert werden, kannst du dich auch noch als Google-Bot ausgeben.

Gruß,
bastla

Edit: Nicht vergessen den Grenzwert für die Tiefe externe Seiten auf "0" zu setzen, du willst schließlich nicht zum Mirror des halben Netzes werden

Flo1993 · 8 September 2013

Des Program ist super nur des Problem ist, dass es sowohl "normale" wie auch die NoIndex/NoFollow Seiten speichert, doch bräuchte aber nur die NoIndex/NoFollow Seiten.

duffguy · 8 September 2013

Ich würde mir mithilfe von AstroGrep alle HTML-Dateien suchen lassen ,
welche die gesuchten Wörter enthalten.
Praktischerweise kann man da das Toplevel - Verzeichnis angeben.

hth

Suche nach Webseiten mit NoIndex/NoFollow mit WebCrawler

Flo1993

treuer Stammgast

Bullabeisser

assimiliert

bastla

mit bastla_Assi

Anhänge

Flo1993

treuer Stammgast

duffguy

schläft auf dem Boardsofa