Komplette Website kopieren

Blacky89 · 13 Dezember 2005

Hallo,

ich habe mir gerade "HT Track Website Copier" runter geladen.
Da ich noch keine Flat besitze wollte ich zu Testzwecken mal das Board "offline" auf den Rechner holen.
Nur irgendwas stimmt da nicht.
Als maximale Linktiefe habe ich 3 eingegeben und Bilder auch aktiviert.
Doch ausser der Startseite bekomme ich nichts runtergeladen, keine Bilder nichts.
Die automatische Anmeldung auf dem Board, über das Programm, funktioniert aber.
Bei anderen Sites genau das gleiche.

Kennt jemand die Einstellungen für diese Programm oder ähnliche Programme ?

AlterKnacker · 13 Dezember 2005

Das Programm kenne ich leider nicht - spiel doch einfach mal ein wenig mit den Einstellungen herum.

Ansonsten gibt es hier in der Downloadsektion noch eine ganze Menge andere gute Prgramme

.

Nipple · 14 Dezember 2005

Evt.liegt es am RSS-Feed hier im Board, normalerweise arbeitet HTTrack sehr zuverlässig, probiere mal eine andere Seite.

Blacky89 · 14 Dezember 2005

ja, bei anderen Seiten (fast) keine Probleme.

Nur hier beim Board klappt´s nicht, gibt es da eine andere Möglichkeit ?

Nipple · 14 Dezember 2005

Da ist wohl das Boardteam gefragt

t_matze · 15 Dezember 2005

Ich hab' mal ein wenig in der Dokumentation gestöbert (solltest Du auch als Eintrag im Startmenü haben). In den FAQ steht folgendes:

Troubleshooting:
Q: Some sites are captured very well, other aren't. Why?
A: There are several reasons (and solutions) for a mirror to fail. Reading the log files (ans this FAQ!) is generally a VERY good idea to figure out what occured.
Links within the site refers to external links, or links located in another (or upper) directories, not captured by default - the use of filters is generally THE solution, as this is one of the powerful option in HTTrack. See the above questions/answers.
Website 'robots.txt' rules forbide access to several website parts - you can disable them, but only with great care!
HTTrack is filtered (by its default User-agent IDentity) - you can change the Browser User-Agent identity to an anonymous one (MSIE, Netscape..) - here again, use this option with care, as this measure might have been put to avoid some bandwidth abuse (see also the abuse faq!)
There are cases, however, that can not be (yet) handled:

Flash sites - no full support

Intensive Java/Javascript sites - might be bogus/incomplete

Complex CGI with built-in redirect, and other tricks - very complicated to handle, and therefore might cause problems

Parsing problem in the HTML code (cases where the engine is fooled, for example by a false comment () detected. Rare cases, but might occur. A bug report is then generally good!

Note: For some sites, setting "Force old HTTP/1.0 requests" option can be useful, as this option uses more basic requests (no HEAD request for example). This will cause a performance loss, but will increase the compatibility with some cgi-based sites.

Vielleicht spielt auch das eine Rolle:

Q: I got some weird messages telling that robots.txt do not allow several files to be captured. What's going on?
A: These rules, stored in a file called robots.txt, are given by the website, to specify which links or folders should not be caught by robots and spiders - for example, /cgi-bin or large images files. They are followed by default by HTTrack, as it is advised. Therefore, you may miss some files that would have been downloaded without these rules - check in your logs if it is the case:Info: Note: due to www.foobar.com remote robots.txt rules, links begining with these path will be forbidden: /cgi-bin/,/images/ (see in the options to disable this) If you want to disable them, just change the corresponding option in the option list! (but only disable this option with great care, some restricted parts of the website might be huge or not downloadable)

Möglicherweise hilft es, die RSS-Feeds über eine Filterregel auszuschließen. Grundlagen zu Filtern bei HTTrack:

Now, we might want to exclude all links in www.someweb.com/gallery/trees/hugetrees/, because with the previous filter, we accepted too many files. Here again, you can add a filter rule to refuse these links. Modify the previous filters to:
+www.someweb.com/gallery/trees/*
+www.someweb.com/photos/*
-www.someweb.com/gallery/trees/hugetrees/*
You have noticed the - in the begining of the third rule: this means "refuse links matching the rule" ; and the rule is "any files begining with www.someweb.com/gallery/trees/hugetrees/
Voila! With these three rules, you have precisely defined what you wanted to capture.
A more complex example?
Imagine that you want to accept all jpg files (files with .jpg type) that have "blue" in the name and located in www.someweb.com
+www.someweb.com/*blue*.jpg
More detailed information can be found here!

Ich würde es also mal mit dem folgenden Filtereintrag probieren:
-www.supernature-forum.de/*rss2

Ach ja, wenn Du sowieso schon in der Dokumentation stöberst: Auf http://www.httrack.com/html/step9_opt4.html ist sehr schön Schritt für Schritt erklärt, wie Du ganz bequem gute Filterregeln hinzufügen kannst.

7sleeper · 19 Dezember 2005

ich von meiner seite sag: scheiss ripper! machs selbst... solch tools sollten verboten werden, wegen leute wie dir verlieren einige ihre arbeitsplätze. es werden schon genug andere sachen geklaut.

Supernature · 19 Dezember 2005

Findest Du das jetzt nicht ein wenig weit her geholt?
Diese Tools automatisieren doch nur das, was man von Hand ebenso erledigen kann. Oder gibt es Leute, die das manuelle Rippen gegen Geld ausführen, und Du siehst deren Arbeitsplätze in Gefahr?
Bei uns machen die Suchmaschinen, Robots und wohl auch solche Tools tatsächlich die Mehrheit des Traffics aus - c'est la vie, dessen muss man sich ganz einfach bewusst sein, wenn man Inhalte offen zugänglich bereitstellt.

Wir könnten allerdings trefflich darüber diskutieren, in wie vielen Fällen das komplette Rippen von Webseiten tatsächlich einen Sinn macht

.

7sleeper · 19 Dezember 2005

nein was ich damit sagen will ist, das es solche tools zu leicht machen um eine seite zu rippen, anstatt sie eine page selbst gestalten.
das webpages von noobs kopiert werden ist schon ein alltägliches ding und die nehmen den richtigen webdesignern die aufträge weg... und ja ripps werden leider auch verkauft.

Supernature · 19 Dezember 2005

Ok, das ist ein komplett anderer Blickwinkel - insofern hast Du Recht. Allerdings gibt es vorgefertigte Templates in Hülle und Fülle und für wenig Geld zu kaufen. Bei einem Webdesigner sind daher meiner Meinung nach eher kreative Ideen zur Präsentation des Inhalts und zur Benutzerführung gefragt - was das Design angeht, will ja sowieso kaum noch jemand was riskieren.

Blacky89 · 19 Dezember 2005

7sleeper schrieb:
nein was ich damit sagen will ist, das es solche tools zu leicht machen um eine seite zu rippen, anstatt sie eine page selbst gestalten.
das webpages von noobs kopiert werden ist schon ein alltägliches ding und die nehmen den richtigen webdesignern die aufträge weg... und ja ripps werden leider auch verkauft.

Alles klar bei Dir ?

Wer lesen kann ist klar im Vorteil, also gaaaanz nach oben scrollen und durchlesen ... dann wieder hier melden !
Aber bitte erst nach dem Du Deine Pillen genommen hast !

winni · 19 Dezember 2005

7sleeper schrieb:
ich von meiner seite sag: scheiss ripper! machs selbst... solch tools sollten verboten werden, wegen leute wie dir verlieren einige ihre arbeitsplätze. es werden schon genug andere sachen geklaut.

Mein Verlobter bastelt sich auch gerade eine HP und er hat so eine Tool noch nicht , wird er aber auch nicht brauchen. Aber man könnte es ja machen um zu schauen wie andere es gemacht haben. Aber auf so eine schei... muss man einfach Antworten. Lies es DIR echt noch mal genau Durch und dann schreibe was dazu. Und wenn du noch 1x mein schwager in
Spee angreifts dann bekommst Du aber mächtigen ärger

t_matze · 19 Dezember 2005

So, und jetzt beruhigen wir uns bitte alle wieder!

Wenn sich jemand viel Mühe mit seiner Homepage gegeben hat, kann ich verstehen, daß er gereizt reagiert, wenn diese dann komplett heruntergeladen und kopiert wird. Welchen Sinn es ansonsten machen soll, eine Seite komplett zu laden (statt sich die aktuellen Infos online zu holen), habe ich auch noch nicht verstanden. Von daher habe ich das Programm zwar installiert, aber noch nie wirklich benutzt. Zum Nachschlagen in der Hilfe hat es aber gereicht... :angel

7sleeper · 19 Dezember 2005

LOL ihr zwei ich hab auch scho vorhin alles gelesen. fakt ist du hast ein solches tool und wendest es an, ich weis du es hier beim forum anwendest. schon ma daran gedacht das ein forum 1. eine lizenz benötigen könnte? 2. einen eigens dafür gebastelten skin beinhaltet?

@winni, dein einziges argument is völlig sinnlos... was willste den schauen? wie ers gemacht hat? LOL da sag ich nur 1. IE, FF oder sonstige browser 2. Quelltext angucken fertig.

das hat nix mit angreiffen zu tun wenn ich die wahrheit etwas gereizt verklickere. mir ist klar das des ding ned online ist, aber ma erlich das is nur ein klick davon entfernt.

jabberj · 19 Dezember 2005

uh, ich benutze solche tools

für den mac gibt es ein Programm, das heißt «sitesucker», damit kann ich website mit Inhalt, solange sie nicht geschützt sind prima auf meinen Rechner runterladen und mir
in aller Ruhe gelungene Seiten anschauen und analysieren.
Ein anderer Effekt ist, dass ich so sehr leicht an Daten alter Websites von Kunden, die aktualisiert werden müssen, herankommen, ohne auf Zugangsdaten oder CD´s der Kunden warten zu müssen, die die Timeline so oder so überschreiten.

Manche Leute kommen zu mir, weil sie meinen Stil mögen, andere kaufen Templates oder basteln selber, jedem das seine, das nennt man frei Marktwirtschaft. Wenn die Webdesignerclique keine Arbeitsplätze mehr schaffen kann, hat sie ein Problem, klar!
Wenn diese Meckermotzer aber nicht in der Lage sind, ihr Fachwissen und ihre Kreativität auszuspielen, sind sie selber Schuld.

Und zum Thema «Klauen», hehe, come on, 7sleeper, wenn du das vermeiden willst, solltest du auf eine Almhütte ziehen, ohne Kontakt nach aussen ... denn viele deiner Inspirationen sind mit Sicherheit schon selbst von dir gesehen, bevor du sie mit deinem
© verewigt hast

:lachweg

Blacky89 · 19 Dezember 2005

7sleeper schrieb:
LOL ihr zwei ich hab auch scho vorhin alles gelesen. fakt ist du hast ein solches tool und wendest es an, ich weis du es hier beim forum anwendest. schon ma daran gedacht das ein forum 1. eine lizenz benötigen könnte? 2. einen eigens dafür gebastelten skin beinhaltet?

@winni, dein einziges argument is völlig sinnlos... was willste den schauen? wie ers gemacht hat? LOL da sag ich nur 1. IE, FF oder sonstige browser 2. Quelltext angucken fertig.

das hat nix mit angreiffen zu tun wenn ich die wahrheit etwas gereizt verklickere. mir ist klar das des ding ned online ist, aber ma erlich das is nur ein klick davon entfernt.

:stupid

Nein ... ich werde mich jetzt zusammen reissen :smokin

Fakt ist, ich nutze wenn überhaupt HT Track Website Copier, und das auch nur aus folgendem Grund !
Da ich nicht stolzer Besitzer einer Flatrate bin dauert es ca.1-2 Std um auf allen Boards neue Beiträge zu lesen. Also wird die Kiste morgens einmal angeworfen ... der aktuallisiert mir schön die Daten auf dem Rechner ... und ich kann zwischendurch mal reinschauen ... was interessant ist und was nicht !
Wozu eine fremde Site kopieren ? Ich brauche keine HP, ich muss nicht jedem da draussen mein Privatleben unter die Nase reiben und ständig erzählen wie toll ich bin !
Und die HP an der ich bastele ... ist ein reines Hobby, d.H.: das Teil wird nie Online gehen .. einfach nur testen und alles SELBSTGESCHRIEBEN !!!

t_matze · 19 Dezember 2005

ot:
Okay, da ich vorhin wohl im allgemeinen Trubel untergegangen bin

, nochmal deutlicher:

@7sleeper: Bitte unterlasse den sehr scharfen Ton. Deine Argumente kannst Du auch sachlich darstellen, ohne persönlich anzugreifen. Und bitte bemühe Dich dabei um ein leserliches Schriftbild, das schließt den Gebrauch der Umschalttaste (für die Großbuchstaben) mit ein.
Sollte sich an der Art und dem Inhalt Deiner Beiträge hier nichts ändern, behalte ich mir die Möglichkeit vor, den Thread vom Nebengeplänkel zu säubern, damit es hier wieder themenbezogen weitergehen kann.

@Blacky89: Bist Du sicher, daß Du damit besser fährst, als wenn Du gezielt die Themen anklickst, (im Hintergrund) lädst und später (offline?) durchliest, die Dich interessieren? Der Traffic ist auf die von Dir beschriebene Art zumindest deutlich höher, weil viel mehr "Hintergrundrauschen" dabei ist, also Threads, Anhänge und ähnliches, das Dich gar nicht interessiert. Oder filterst Du die zu ladenden Inhalte irgendwie nach bestimmten Kriterien?

Und dann würde mich doch interessieren, ob meine ausführlichen Hinweise oben zu irgend einer Verbesserung geführt haben. Ich werde es nicht selbst ausprobieren, weil ich ja mit Modem unterwegs bin...

Blacky89 · 20 Dezember 2005

@t_matze

Habe mich die letzten Tage nicht mehr so damit beschäftigt.
Das Problem was immer noch besteht ist, das die Hauptseite komplett dargestellt wird, sobald es in die Tiefe geht ist essig.
Ausserdem bin ich momentan soviel Online das das eine Stündchen mehr gar nicht auffällt

o0Pascal0o · 20 Juni 2011

Hmmm.. ich kann ne Seite nicht kopieren.. bricht immer sofort ab mit Httrack. Womit könnte es klappen. Oder kann ich das dann komplett vergessen?

ZuluDC · 20 Juni 2011

Vielleicht hilft Dir dieser Thread weiter...

Komplette Website kopieren

assimiliert

Household Manager

assimiliert

assimiliert

assimiliert

Senior Member

7sleeper

Gast

Und jetzt?

7sleeper

Gast

Und jetzt?

assimiliert

ɱια ʂαɳ ɱια & ʂհἶʂհმհօlἶƙεɾ

Senior Member

7sleeper

Gast

assimiliert

assimiliert

Senior Member

assimiliert

Bruder von Johnny English

assimiliert