Beautiful Soup

Fosteryosho · 2 Februar 2024

Ja moin,
ich versuche mich seit langem mal wieder ein wenig an python. Thematik Crawlen mit Beautiful Soup.
Ich lese mir jetzt also eine Seite ein mit verschiedenen Links und möchte den Linktext und die verlinkte url haben...

for link in Hersteller:
print (link.text)

.. liefert mir jetzt ja schon den verlinkten Text. Aber wie komme ich nun an die adresse, also das href="blablabla" ?
Kann ich das auch irgendwie so easy wie den Text ansprechen, oder muss ich mir den String nehmen und dann auseinander schnippeln?

duffguy · 2 Februar 2024

Was für ein Objekt ist in deinem Beispiel mit 'Hersteller' referenziert?

Gleich auf der ersten Seite der Dokumentation findest du :

One common task is extracting all the URLs found within a page’s <a> tags:

for link in soup.find_all('a'):
print(link.get('href'))
# http://example.com/elsie
# http://example.com/lacie
# http://example.com/tillie

guckst du hier: Beautiful Soup Documentation — Beautiful Soup 4.12.0 documentation

hth

Fosteryosho · 3 Februar 2024

Ja Moin,

In 'Hersteller' sind Links also <a href="www">Herstellername</a>

Ahh, ich denke link.get war das was ich gesucht habe...
Das geht dann warscheinlich mit allen Attributen, also auch z.B. link.get('title').

Ist für ein kleines Projekt, an dem ich unter der Woche immer so die letzte halbe Stunde, Stunde vor Feierabend dran tüfteln möchte sofern Zeit dafür ist. Ich geb dann mal Rückmeldung. Es wird warscheinlich nicht meine letzte Frage sein

Aber besten Dank schonmal und ein schönes Wochenende.

BTW für sowas liebe ich einfach dieses Forum, schade das nicht mehr so viel los ist wie früher, aber hier kann man auch einfach nochmal eine Frage stellen ohne gleich als H.Sohn bezeichnet zu werden mit dem Hinweis, dass man doch gefälligt Google benutzen soll. #früherwarallesbesser

Fosteryosho · 5 Februar 2024

Jop, funktioniert.

Fosteryosho · 13 Februar 2024

Morgen, ich mach hierfür mal kein neues Thema auf.
Heute morgen stand auf einmal der Crawlingprozess still. Kein fehler, programm lief noch aber nichts ist mehr passiert.
Meine erste Vermutungen waren Energieeinstellungen, oder Internet reconnect, aber das kann ich beides ausschließen.

Ich lasse mir die Daten die in ne Datei geschrieben werden halt immer übers Terminal ausgeben und da tat sich nichts mehr. Aber auch an der Datei kann ich ja sehen wann sie das letzte mal bearbeitet wurde.

Hab grade so gar keine Idee woran das liegen könnte...

Beautiful Soup

Fosteryosho

treuer Stammgast

duffguy

schläft auf dem Boardsofa

Fosteryosho

treuer Stammgast

Fosteryosho

treuer Stammgast

Fosteryosho

treuer Stammgast