Web Crawler Algorithmen mit Jsoup

BodyLAB · 30. Dez 2022

Guten Tag zusammen,

ich interessiere mich derzeit sehr für das Thema Informationen aus dem WWW zu beschaffen. Dafür würde ich mir sehr gerne meinen eigenen Web Crawler / Sraper bauen. So weit so gut, nur finde ich keine Lösung um eine Webseite komplett durchlaufen zu können. Habe auch bei google etc. nichts gefunden zu diesem Thema.
Kennt jemand einen Algorithmus denn man umsetzten kann in Java um zu gewährleisten eine Webseite komplett zu durchlaufen?

Es gibt Webseit-Copy Tools, diese sollten doch einen solchen Algorithmus implementiert haben um eben die Funktionsweise des Tools zu gewährleisten (sonst kopiere ich eben auch nicht die Gesamte Webseite :-D).

Vielleicht habe ich ja Glück und jemand von euch kennt sich mit diesem Thema aus

Meine Idee bzw. umgesetzter Ansatz ist dieser:

Besuche eine Übergebene Internetseite (mithilfe von jsoup)
Sammel Alle Links von dieser Seite (funktioniert sehr gut mit jsoup)
Sortiere alle Links aus die nicht zur Seite gehören
Speichere die Links in eine PostgreSQL Tabelle
Speichere die besuchten Links in eine zweite PostgreSQL Tabelle

Soweit so gut nur gibt es keine Gewährleistung das ich jede Seite auf der Webseite besuche! "Schlechte Lösung also"
Gibt es eine Möglichkeit das ganze über die Graphentheorie zu lösen, indem wir den Einstiegspunkt des Verzeichnis (die Übergebene URL) betrachten und von dieser dann Absteigen?
Das ganze Funktioniert dann bspw. bei Wikipedia nicht, zumindest fällt mir keine Lösung ein! Denn wenn eine URL übergeben wird wie z. B.: https://en.wikipedia.org/wiki/Albert_Einstein dann sammeln wir sämtliche Links von dort doch der Einstigspunkt der Seite ist doch Theoretisch dieser hier: https://en.wikipedia.org/wiki/ ODER? :-D

Ich hoffe man versteht mein Anliegen und jemand weiß wie es geht und kann mir Helfen

Robert Zenz · 30. Dez 2022

Mit Schwierigkeiten...weil wie definierst du "alle Seiten" unter der Adresse? Wenn wir zum Beispiel dein Wiki-Beispiel nehmen, wie weit willst du denn nach oben gehen:

* https://en.wikipedia.org/wiki/Albert_Einstein
* https://en.wikipedia.org/
* https://wikipedia.org/

Das kann aber je nach Seite komplett unterschiedliche Kontexte sein. Und dann stellt sich noch die Frage, wenn du "Seiten" nicht anhand von Links findest, wie wuerde man denn sonst dorthin kommen als Benutzer?

Dein initialer Ansatz ist schon brauchbar, deine Kriterien sollte man aber ueberarbeiten, denke ich.

LimDul · 30. Dez 2022

Was manche Seiten anbieten ist eine sitemap.xml: https://de.wikipedia.org/wiki/Sitemaps-Protokoll

Da rufst du dann /sitemap.xml ab und hast da schön alle URLs aufgelistet, die du dann abrufen kannst.

BodyLAB · 31. Dez 2022

Robert Zenz hat gesagt.:
Mit Schwierigkeiten...weil wie definierst du "alle Seiten" unter der Adresse? Wenn wir zum Beispiel dein Wiki-Beispiel nehmen, wie weit willst du denn nach oben gehen:

Das ist eben genau das was ich nicht verstehe.
Keine Ahnung wie weit eine Tool das eine Webseite Kopieren soll wie z. B. WebHTTrack dann laufen. Das Tool habe ich jedoch schon an einer Webseite getestet und zwar an dieser hier: https://zetcode.com/
Dort scheint es geklappt zu haben die gesamte Seite zu Kopieren (Hoffentlich habe ich damit nichts Strafbares gemacht! Das ist mir ehrlich gesagt auch etwas unklar. Hab die Seite nur bei mir auf dem PC derzeit noch und nicht weiter verteilt oder so etwas!).
Wie macht das Tool das dann? Vielleicht ja mit dem Ansatz von @LimDul. Das werde ich mir unbedingt anschauen.

LimDul hat gesagt.:
Was manche Seiten anbieten ist eine sitemap.xml: https://de.wikipedia.org/wiki/Sitemaps-Protokoll

Da rufst du dann /sitemap.xml ab und hast da schön alle URLs aufgelistet, die du dann abrufen kannst.

Danke dafür

Robert Zenz hat gesagt.:
Dein initialer Ansatz ist schon brauchbar, deine Kriterien sollte man aber ueberarbeiten, denke ich.

@Robert Zenz wie könnte ich diese Kriterien überarbeiten also was genau meinst du?

Danke für die Antworten

	Titel	Forum	Antworten	Datum
P	Crawler	Allgemeine Java-Themen	6	15. Aug 2016
J	Crawler selbst geschreiben: OutOfMemoryError	Allgemeine Java-Themen	14	15. Feb 2010
M	Queue für spider/crawler?	Allgemeine Java-Themen	2	26. Aug 2009
Q	Suche Crawler	Allgemeine Java-Themen	2	22. Jan 2007
R	Crawler mit Java schreiben	Allgemeine Java-Themen	5	17. Okt 2006
A	Algorithmen	Allgemeine Java-Themen	2	18. Jul 2022
A	Algorithmen	Allgemeine Java-Themen	2	15. Jun 2022
	Algorithmen formulieren	Allgemeine Java-Themen	1	14. Dez 2020
J	Algorithmen Analyse einer Schleife	Allgemeine Java-Themen	6	6. Mrz 2020
D	Algorithmen und Datenstrukturen in Java	Allgemeine Java-Themen	40	19. Jul 2019
S	Algorithmen und Datenstrukturen	Allgemeine Java-Themen	1	18. Jun 2019
S	Buch oder Website mit genialen Algorithmen..?	Allgemeine Java-Themen	1	25. Jun 2014
M	Algorithmen und Datenstrukturen	Allgemeine Java-Themen	6	26. Mai 2014
C	Rechenzeit verschiedener Algorithmen vergleichen	Allgemeine Java-Themen	4	8. Mrz 2014
F	deduktive algorithmen	Allgemeine Java-Themen	0	10. Dez 2013
X	Suche Softwareimplementierung von Cryptographischen Algorithmen	Allgemeine Java-Themen	3	24. Jul 2011
M	Aufgabenstellung unklar (Vorlesung Algorithmen und Datenstrukturen..)	Allgemeine Java-Themen	2	21. Okt 2009
K	Frage zu ProgressBars, Algorithmen und Multithreading ->F	Allgemeine Java-Themen	2	10. Mai 2005
O	Mit jsoup Text aus HTML-Datei rausgrabben	Allgemeine Java-Themen	29	2. Jul 2024
	Website login Problem - Jsoup, wie bisher, klappt nicht!	Allgemeine Java-Themen	31	27. Jul 2022
S	Bookmark HTML Datei einlesen, alle Links erhalten und manche editieren..? (aktuell JSoup)	Allgemeine Java-Themen	4	7. Jul 2022
C	Parsen einer sich updatenden Html mithilfe von jsoup	Allgemeine Java-Themen	4	27. Jan 2022
B	Compiler-Fehler Probleme beim Kompilieren mit Jsoup	Allgemeine Java-Themen	8	5. Nov 2021
I	JSOUP / Shiro und SessionId	Allgemeine Java-Themen	5	2. Aug 2021
T	JSoup findet input Feld nicht?! Wie kann ich das Feld finden?	Allgemeine Java-Themen	3	17. Jun 2019
F	Jsoup mit Javascript und onLoad	Allgemeine Java-Themen	2	7. Mai 2019
N	Jsoup, Links weiter benutzen	Allgemeine Java-Themen	5	20. Jun 2017
F	Selektornachhilfe JSoup	Allgemeine Java-Themen	2	29. Dez 2016
	JSoup - HTML Tag entfernen	Allgemeine Java-Themen	1	30. Sep 2016
	JSoup - Website Inhalt/Element mit String vergleichen	Allgemeine Java-Themen	2	20. Sep 2016
J	Jsoup Filtern	Allgemeine Java-Themen	5	12. Mai 2016
I	JSoup Class auslesen	Allgemeine Java-Themen	1	24. Jun 2015
I	Jsoup überprügen ob überhaupt was eingelesen wurde	Allgemeine Java-Themen	10	24. Jun 2015
T	Jsoup: Mehrere Links nacheinander parsen	Allgemeine Java-Themen	11	12. Dez 2014

Web Crawler Algorithmen mit Jsoup

BodyLAB

Bekanntes Mitglied

Robert Zenz

Top Contributor

LimDul

Top Contributor

BodyLAB

Bekanntes Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen