WebCrawler in Java

Gelöschtes Mitglied 35125 · 5. Sep 2012

hallo leute,

vor kurzem habe ich mich für ein praktikum beworben und habe auch schon eine antwort wo ich aufgefordert werde ein web crawler in java zu schreiben.

der web crawler soll folgendes können:

-den inhalt einer webseite holen
-aus dem inhalt die links extrahieren
-die extrahierten links crawlen(zurück zu step 1)
-bei 1000 links schluss machen

da ich noch keinen plan von webcrawlern hatte war ich erstmal ein wenig baff, habe mich nu erstmal schlau gemacht und ein flussdiagramm erstellt um zu gucken ob ich die sache kapiert habe. ich will nichts großes programmieren, halt nur ein crawler der den o.g. anforderungen entspricht.

ich habe also vor diesen thread als eine art mindmap zu nutzen wo ihr mir hoffentlich auch ein paar kommentare/kritik/tipps geben könntet

gibt für crawler schon klassen? also womit man aus html-dokumenten die url & links rausfiltern kann?

hab das flussdiagramm als anhang beigefügt, hoffe dass ich da keine fehler gemacht habe...

greetz

Gast2 · 5. Sep 2012

Hm, bin mir nicht ganz sicher ob du das mit dem crawler richtig verstanden hast, zumindest wär das Kontrollflussdiagramm dann falsch.
Du musst jede Seite die du durch neue Links erreichst wieder nach Links durchsuchen und damit deine Queue füllen. Wenn du dann bei insgesamt 1000 durchsuchten Links bist brichst du ab.

Was dir helfen wird sind folgende Klassen:
- URL, zum auslesen einer Seite
- Pattern und Matcher, zum rausfiltern der Links

Gelöschtes Mitglied 35125 · 5. Sep 2012

hi elke, danke erstmal für deine rasche antwort!

meinst du dass der queue-counter bei jeder seite neu anfängt? weil ich habe mir das so vorgestellt:

rootSeite eingeben, counter von queue auf 0 setzen
rootSeite nach Links (=weiteren Seiten) durchsuchen
gefundene links in queue packen, für jede seite counter + 1
solange schritt 2 wiederholen bis counter = 1000

habe das flüssdiagramm nochmal ein wenig überarbeitet da mir selber ein fehler aufgefallen ist

Gast2 · 5. Sep 2012

Nein, der Counter fängt nicht bei jeder Seite wieder bei 0 an. Du würdest sonst sehr lange suchen müssen

Den Counter erhöhst du immer wenn du eine Seite ausließt.

Ark · 5. Sep 2012

EikeB hat gesagt.:
- Pattern und Matcher, zum rausfiltern der Links

Na ja, na, ja … sicherer/besser/komfortabler geht das mit einem HTML-Parser. Interessanterweise wurde erst neulich nach so was gefragt.

@dsordrlyPrgrmng: Für einfache Fälle könnte man auch zu wget greifen. Eventuell kannst du dir da auch das eine oder andere abschauen.

Ark

Gelöschtes Mitglied 35125 · 5. Sep 2012

@ elke, dann verstehe ich nicht ganz was an dem flussdiagramm net stimmt, könntest du mir das ein wenig genauer erklären?

@ark, danke ich werde mir erstmal die genannten libs angucken, ich muss ja dann noch alles erklären können wenns dazu kommt, also wäre das schon schön wenns ne etwas einfachere methode ist

Gelöschtes Mitglied 23978 · 5. Sep 2012

Hallo dsordrlyPrgrmng,

mit HTMLUnit wird das ein Dreizeiler ... fast

Viel Erfolg

Kjubert · 5. Sep 2012

z-mon hat gesagt.:
Hallo dsordrlyPrgrmng,

mit HTMLUnit wird das ein Dreizeiler ... fast

Viel Erfolg

Naja aber wär doch irgendwie cooler das selber zu machen, oder? Die Aufgabe ist ja nun wirklich nicht allzu schwer.

Der Ablauf sollte "ganz einfach" dieser sein, wenn ich das richtig verstanden habe:

URL zum Auslesen setzen
Seitenquelltext auslesen
Quelltext nach Links durchsuchen und Links is Liste o.ä. speichern
Counter (oder was auch immer) um 1 erhöhen
Prüfen, ob Counter == 1000 (wenn ja -> ENDE, wenn nein -> nächster Schritt)
Erste URL in der Liste als URL zum Auslesen setzen (also ab Schritt 1 wiederholen)

Das schaffst du schon

Gelöschtes Mitglied 23978 · 6. Sep 2012

Zu klären ist noch ob es 1000 verschiedene Domains sein sollen. Wenn dem so ist, musst du die gescannten Domains mitschneiden (ggf. die Basis URL aus der vollständigen URL extrahieren) und auf bereits gescannd prüfen.

hüteüberhüte · 6. Sep 2012

dsordrlyPrgrmng hat gesagt.:
@ elke,

Doch nicht elke

, EikeB

Also ich würde solche Aufgaben einfach runterprogrammieren und nicht erst noch mit UML etc. beginnen. Aber als Ergebnispräsentation wäre das natürlich schöner.

Anregungen:
- Mehrere Threads, die eine Page laden,
- threadsichere Queue (o.ä. Datenstruktur),
- eine Domain nur einmal (oder max. x-mal) laden,
- XML-/HTML-Parser vs. Regex
- usw.

Zum Flussdiagramm:

Java:

que.add(ersteUrl)
c = 0
while (c < 1000 && !que.isEmpty()) {
  que.add(read(que.get()))
  c++
}

Templarthelast · 6. Sep 2012

hüteüberhüte hat gesagt.:
Java:

que.add(ersteUrl) c = 0 while (c < 1000 && !que.isEmpty()) { que.add(read(que.get())) c++ }

Das wäre natürlich eine schöne Lösung, wenn man einen Thread hätte, welcher die Inhaltsangaben der Seiten durchsucht und die richtigen Links zu einer quue hinzufügt. Diese Que würde dann von einem oder meheren anderen Threads durchlaufen wird.
Allerdings finde finde ich soetwas für jemanden, der einen crawler nur für ein Praktikum entwickeln soll, etwas überdimensioniert.

@TO
Falls du eine einfache und schnelle Lösung suchst würde ich, wie schon einmal angesprochen über das HTMLUnit-framework gehen. Die andere Möglichkeit, welche wahrscheinlich auch besser bei deinem Arbeitgeber ankommen würde, wäre ein eigener htmlParser, welcher die Seite per HTTPStream ließt und dann auswertet.

Kjubert · 6. Sep 2012

Aber ist das denn alles nötig? Gestern Abend konnt ich schlecht schlafen, da hab ich das mal ausprobiert und so gehts eigentlich fix:
Erstmal den Quelltext auslesen (kann man ja machen, wie man will), und dann so in etwa die Links rausfiltern:

Java:

private Set<URL> getLinksFromHTMLSource(String htmlSource, URL from){
	Set<URL> linkSet = new HashSet<URL>();
	int currentIndex = 0;
	int endIndex = 0;
	String currentLink;
	
	while((currentIndex = htmlSource.indexOf("href=\"", currentIndex + 1)) >= 0){
		endIndex = htmlSource.indexOf("\"", currentIndex + 8);
		currentLink = htmlSource.substring(currentIndex + 6, endIndex);
		
		if (currentLink.indexOf("http") < 0) currentLink = from.getProtocol()
														 + "://"
														 + from.getHost()
														 + from.getPath();
		
		try {
			if (currentLink.length() > 1) linkSet.add(new URL(currentLink));
		} catch (MalformedURLException e) {}
	}
	return linkSet;
}

Also der funktionierte auf Anhieb - vielleicht kann mir da ja irgendwer von den erfahreneren hier mal auf die Finger hauen, wenn ich irgendwo grobe Verbrechen begangen hab

Empire Phoenix · 6. Sep 2012

Kleinigkeiten sind auf jedenfall noch, was wenn ich im html 'href ="' statt 'href="' habe?
Also kurz leerzeichen behandlung beim href evt noch benötigt.

Zudem, was wenn sonderzeichen inner url drinnen sind? Browser wnadeln die automatisch um die url klasse nciht soweit ich we iß, würde ich mal testen.

	Titel	Forum	Antworten	Datum
M	HelloWorld.txt nach HelloWorld.java in Win11 funktioniert nicht	Java Basics - Anfänger-Themen	4	Montag um 19:15
	Java lässt sich auf älterem Win 7 nicht mehr installieren	Java Basics - Anfänger-Themen	34	3. Aug 2025
J	Probleme mit drucken aus Java	Java Basics - Anfänger-Themen	3	22. Mrz 2025
	Java chart library suggestion for web application?	Java Basics - Anfänger-Themen	2	18. Mrz 2025
D	wie kann ich gcc aus einer .java datei heraus aufrufen?	Java Basics - Anfänger-Themen	2	24. Dez 2024
S	Text Formatierung in Java	Java Basics - Anfänger-Themen	2	15. Dez 2024
B	Erste Schritte yaml parsen in Java	Java Basics - Anfänger-Themen	19	29. Nov 2024
C	Methoden Umlaute in Java	Java Basics - Anfänger-Themen	18	22. Nov 2024
W	Java-PRogramm liest als EXE-File Nicht USB, jedoch aus NetBeans	Java Basics - Anfänger-Themen	45	12. Nov 2024
W	Methoden java map ersatz für c++map	Java Basics - Anfänger-Themen	3	30. Okt 2024
M	Erste Schritte Java Primzahltester	Java Basics - Anfänger-Themen	4	28. Okt 2024
A	csv Reader für Java?	Java Basics - Anfänger-Themen	27	16. Okt 2024
K	Java - Enums	Java Basics - Anfänger-Themen	30	16. Okt 2024
	Java Unterstützung für exel dateien installieren.	Java Basics - Anfänger-Themen	2	13. Aug 2024
	java.lang.NoClassDefFoundError: org/json/JSONException	Java Basics - Anfänger-Themen	2	31. Jul 2024
	Mit Button andere java öffnen	Java Basics - Anfänger-Themen	4	19. Jul 2024
F	Java Object to Hashmap ?	Java Basics - Anfänger-Themen	6	26. Jun 2024
I	Backend in Java und Ansicht von Dateien in statische HTML Seiten?	Java Basics - Anfänger-Themen	15	11. Jun 2024
R	Input/Output Verwendung des Euro-Zeichens in Java	Java Basics - Anfänger-Themen	7	22. Mai 2024
I	Push Nachrichten von JAVA EE App an Mobile App	Java Basics - Anfänger-Themen	3	5. Mai 2024
H	.java Dateien in Eclipse einbinden und ausführen	Java Basics - Anfänger-Themen	1	16. Apr 2024
	Schlüsselworte Was meint man mit "einen Typ" in Java erstellen?	Java Basics - Anfänger-Themen	2	29. Mrz 2024
O	Java Kara geschweifte Klammern	Java Basics - Anfänger-Themen	2	25. Feb 2024
G	Mausrad logitech kann links und rechts klick wie in java abragen.	Java Basics - Anfänger-Themen	15	13. Feb 2024
	Java Klssenproblem	Java Basics - Anfänger-Themen	4	5. Feb 2024
R	Umgebungsvariable java -cp gibt immer Java-Hilfe...	Java Basics - Anfänger-Themen	3	20. Jan 2024
	Csv Datei in Java einlesen	Java Basics - Anfänger-Themen	18	15. Jan 2024
F	TableModelListener: java.lang.ArrayIndexOutOfBoundsException: 132	Java Basics - Anfänger-Themen	3	10. Jan 2024
G	Java 8 - Support-Ende	Java Basics - Anfänger-Themen	7	9. Jan 2024
T	Java Weihnachtsbaum + Rahmen	Java Basics - Anfänger-Themen	1	2. Jan 2024
N	Will mit Java anfangen	Java Basics - Anfänger-Themen	13	28. Dez 2023
Ü	Java Array - Buchstaben als Zahlen ausgeben	Java Basics - Anfänger-Themen	22	1. Dez 2023
M	Java Iterator Verständnisfrage	Java Basics - Anfänger-Themen	6	20. Nov 2023
M	Java Mail Programm	Java Basics - Anfänger-Themen	4	6. Nov 2023
	Java 391 für Windows	Java Basics - Anfänger-Themen	37	30. Okt 2023
G	Java long- in int-Variable umwandeln	Java Basics - Anfänger-Themen	6	27. Okt 2023
	Java im Studium	Java Basics - Anfänger-Themen	7	23. Okt 2023
E	Java Programm zur anzeige, ob Winter- oder Sommerzeit herrscht	Java Basics - Anfänger-Themen	62	20. Okt 2023
I	QR code in Java selber generieren	Java Basics - Anfänger-Themen	5	9. Okt 2023
V	Java-Ausnahmebehandlung: Behandlung geprüfter Ausnahmen	Java Basics - Anfänger-Themen	1	3. Okt 2023
	Java Streams	Java Basics - Anfänger-Themen	10	29. Sep 2023
A	Überwältigt von der komplexen Java Welt	Java Basics - Anfänger-Themen	29	20. Sep 2023
O	Mehrfachvererbung auf Spezifikations- und Implementierungsebene in Java. Interfaces	Java Basics - Anfänger-Themen	19	10. Sep 2023
	Homogene Realisierung von Generics in Java ?	Java Basics - Anfänger-Themen	19	17. Aug 2023
P	Meldung aus Java-Klasse in Thread an aufrufende Klasse	Java Basics - Anfänger-Themen	1	15. Aug 2023
R	mit Java API arbeiten	Java Basics - Anfänger-Themen	9	15. Aug 2023
P	JDK installieren Probleme bei der Java-Installation	Java Basics - Anfänger-Themen	8	9. Aug 2023
S	Java: Wie sortiere ich eine ArrayList benutzerdefinierter Objekte nach einem bestimmten Attribut?	Java Basics - Anfänger-Themen	2	31. Jul 2023
	JNLP File mit Java öffnen	Java Basics - Anfänger-Themen	2	29. Jul 2023
S	Video Editierung mit Java.._	Java Basics - Anfänger-Themen	2	18. Jul 2023
F	Einstelungen in Java - CursorBlinkRate	Java Basics - Anfänger-Themen	10	10. Jul 2023
A	PHP $_POST["name"] in Java	Java Basics - Anfänger-Themen	3	10. Jul 2023
	Is there a oneliner to create a SortedSet filled with one or multiple elements in Java?	Java Basics - Anfänger-Themen	9	22. Jun 2023
	Weißes Bild in Java erstellen	Java Basics - Anfänger-Themen	3	19. Jun 2023
	Can someone please tell me how to use a debugger in BlueJ(a Java environment)	Java Basics - Anfänger-Themen	1	15. Jun 2023
M	Java assoziationen (UML)	Java Basics - Anfänger-Themen	8	14. Jun 2023
H	Excel-Tabellen mit Java erstellen	Java Basics - Anfänger-Themen	4	25. Mai 2023
	Java ArrayListe von einer Klasse sortieren	Java Basics - Anfänger-Themen	2	15. Mai 2023
P	Wie kann ich in meinem Java Programm etwas dauerhaft speichern?	Java Basics - Anfänger-Themen	5	7. Mai 2023
H	Nutzt Eclipse alle CPU-Threads beim Ausführen von Java-Programmen?	Java Basics - Anfänger-Themen	4	5. Mai 2023
	Java einstieg, leichte sache 0 verstanden	Java Basics - Anfänger-Themen	7	27. Apr 2023
A	java.sql.SQLException: Data type mismatch.	Java Basics - Anfänger-Themen	1	27. Apr 2023
H	Java-Programm zur Ausgabe von Zuständen	Java Basics - Anfänger-Themen	80	26. Apr 2023
N	Java Spiel Figur auf dem Hintergrundbild bewegen.	Java Basics - Anfänger-Themen	11	23. Apr 2023
G	Kann Java-Programm nicht als jar aufrufen, auch als EXE nicht	Java Basics - Anfänger-Themen	19	18. Apr 2023
N	Java Taschenrechner hat Jemand vlt einen Tipp dafür wie ich jetzt die buttons verbinden kann und das Ergebnis auf dem textfield anzeigen lassen kann	Java Basics - Anfänger-Themen	13	12. Apr 2023
A	Lerngruppe Java	Java Basics - Anfänger-Themen	2	9. Apr 2023
G	Help me in the Java Program	Java Basics - Anfänger-Themen	2	31. Mrz 2023
L	Java- Vererbung	Java Basics - Anfänger-Themen	4	30. Mrz 2023
	Suche Java Stream Tutorial	Java Basics - Anfänger-Themen	2	29. Mrz 2023
	Ich möchte Java lernen	Java Basics - Anfänger-Themen	11	28. Mrz 2023
	Java Programm erstellen für ein Fußball-Turnier	Java Basics - Anfänger-Themen	3	25. Mrz 2023
M	Datentypen While-Schleife eine Java Methode erstellen	Java Basics - Anfänger-Themen	3	21. Mrz 2023
V	Bild per Java Script austauschen	Java Basics - Anfänger-Themen	7	15. Mrz 2023
	this Keyword in Java	Java Basics - Anfänger-Themen	14	1. Mrz 2023
D	Wie kann man in Java nach Arrays auf Duplikate prüfen	Java Basics - Anfänger-Themen	12	22. Feb 2023
	JAVA Zeitdifferenz feststellen.	Java Basics - Anfänger-Themen	4	10. Feb 2023
	Rekursion in Java	Java Basics - Anfänger-Themen	5	6. Feb 2023
	Java generic interface in a generic class	Java Basics - Anfänger-Themen	6	6. Feb 2023
	Ablauf der Erstellung eines Java Programmes	Java Basics - Anfänger-Themen	17	3. Feb 2023
	Circle.java:5: error: <identifier> expected	Java Basics - Anfänger-Themen	2	3. Feb 2023
	Wie kann ich am besten Java lernen?	Java Basics - Anfänger-Themen	17	29. Jan 2023
A	Java-Properties und -RessourceBundles	Java Basics - Anfänger-Themen	5	27. Jan 2023
	Java-Basics-Aufgabe	Java Basics - Anfänger-Themen	8	25. Jan 2023
R	Java kann nicht installiert werden	Java Basics - Anfänger-Themen	8	22. Jan 2023
	Finde meinen Fehler in einer Methode nicht, Java Karol	Java Basics - Anfänger-Themen	15	22. Jan 2023
G	In ein java Dokument Ton einbinden	Java Basics - Anfänger-Themen	1	22. Jan 2023
C	was heisst es wenn java ']' erwartet ?	Java Basics - Anfänger-Themen	2	18. Jan 2023
	Erste Schritte Programm "Java(TM) Platform SE binary " nicht vorhanden	Java Basics - Anfänger-Themen	1	16. Jan 2023
	Erste Schritte Java "Executable Jar File" nicht vorhanden	Java Basics - Anfänger-Themen	1	16. Jan 2023
	Java 2D-Array Tabelle	Java Basics - Anfänger-Themen	4	13. Jan 2023
	Java Array Wert an bestimmtem Index angeben	Java Basics - Anfänger-Themen	14	12. Jan 2023
J	Java Testklasse	Java Basics - Anfänger-Themen	5	10. Jan 2023
P	Java Selenium . Parameterized.Parameters erzeugt eine Fehlermeldung	Java Basics - Anfänger-Themen	14	10. Jan 2023
W	Java-Code mit Array	Java Basics - Anfänger-Themen	14	19. Dez 2022
W	Java-Code	Java Basics - Anfänger-Themen	2	15. Dez 2022
P	BeforeEach AfterEach werden nicht ausgeführt. Java / Selenium	Java Basics - Anfänger-Themen	4	15. Dez 2022
A	Wie führe ich eine Batch-Datei von meiner Java-Anwendung aus?	Java Basics - Anfänger-Themen	18	15. Dez 2022
W	Java code- TicTac toe	Java Basics - Anfänger-Themen	51	14. Dez 2022
	Java Docs	Java Basics - Anfänger-Themen	9	11. Dez 2022

WebCrawler in Java

Gelöschtes Mitglied 35125

Gast

Anhänge

Gast2

Gast

Gelöschtes Mitglied 35125

Gast

Anhänge

Gast2

Gast

Ark

Top Contributor

Gelöschtes Mitglied 35125

Gast

Gelöschtes Mitglied 23978

Gast

Kjubert

Aktives Mitglied

Gelöschtes Mitglied 23978

Gast

hüteüberhüte

Gast

Templarthelast

Bekanntes Mitglied

Kjubert

Aktives Mitglied

Empire Phoenix

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen