Robuste Methode um Text von HTML code zu extrahieren..?

sirbender

Top Contributor

27. Jul 2012

Hallo,

ich nutze bisher Boilerpipe um Text von HTML code (dieser liegt als String vor) zu extrahieren. Das klappt ganz gut.

Nun muss ich das ganze auf diverse Platformen portieren wo Boilerpipe nicht funktioniert (keine vollstaendige JRE Bibliothek vorhanden). Die Schnittmenge dieser Platformen ist sehr gering.

Nun frage ich mich...gibt es eine Robuste Methode die mit sehr einfachen Mitteln den Text aus HTML-code rausholen kann. Am liebsten waere mir ein Projekt, dass genau das macht und das getestet und robust ist. Mal schnell einen Regex zusammenhacken der dann prinzipiell funktioniert aber dann spaeter einem um die Ohren fliegt will ich vermeiden.

Die Text-Extrahierung muss nicht super-sauber sein, aber sie soll stabil sein und in 99,9% der Faelle ein gutes Ergebnis liefern.

Kann mir jemand was empfehlen? In Javascript hab ich sowas schon irgendwo mal gesehen...aber Google ist heute scheinbar nicht mein Freund oder es gibt bisher nichts fuer Java.

vielen Dank,
sb

ThisIsJaavaaa

Gast

27. Jul 2012

sowas?

jsoup Java HTML Parser, with best of DOM, CSS, and jquery

Java:

final String text = Jsoup.parse(html).text;

sirbender

Top Contributor

27. Jul 2012

Vielen Dank!!! Werd ich nachher mal checken...muss gleich weg.

Ich bin gerade am ermitteln, was ich der kleinste gemeinsame Nenner an JRE libs ist die ich nutzen kann.

Sowas wie org.w3c.dom.Document geht schonmal nicht

Auch java.net glaub nicht

sirbender

Top Contributor

28. Jul 2012

Schade.

HttpURLConnection und URLEncoder sind nicht verfuegbar

Cola_Colin

Top Contributor

28. Jul 2012

Was für Plattformen sind das, dass du diese Klassen nicht verwenden kannst?

sirbender

Top Contributor

30. Jul 2012

GWT ist eine der Platformen. Da faellt schon viel weg

kama

Top Contributor

30. Jul 2012

Hi,

ich kann mal Tika empfehlen...

Gruß
Karl-Heinz Marbaise

	Titel	Forum	Antworten	Datum
G	Lesbare args für die main-Methode	Allgemeine Java-Themen	6	23. Mai 2024
W	Hilfe bei Methode	Allgemeine Java-Themen	14	22. Dez 2023
Ü	Methoden Arrays vergleichen - Methode	Allgemeine Java-Themen	1	26. Nov 2023
	compareTo Methode überschreiben	Allgemeine Java-Themen	4	30. Mai 2023
	Methode über DataInputStream "auslösen"	Allgemeine Java-Themen	6	2. Jan 2023
M	CrudRepository save Methode mocken	Allgemeine Java-Themen	6	30. Dez 2022
	toString() - Methode	Allgemeine Java-Themen	6	5. Okt 2022
A	Clean Code: Variable vs. Methode	Allgemeine Java-Themen	8	9. Sep 2022
	Zweite Main-Methode zuschalten	Allgemeine Java-Themen	18	16. Aug 2022
M	Optimierung einer Methode (byte-Geraffel)	Allgemeine Java-Themen	2	5. Aug 2022
I	Hibernate Envers - Aufruf der Methode zum Speichern selbst ausführen oder managen?	Allgemeine Java-Themen	0	27. Mai 2022
N	rekursion mehrfach eine Methode Öffnen	Allgemeine Java-Themen	4	2. Mai 2022
	Wenn ich eine Methode nur jede 50ms ausführen will, wie mach ich das?	Allgemeine Java-Themen	4	1. Mai 2022
	run-methode eines Threads so programmieren, dass 30x die Sekunde etwas ausgeführt wird.	Allgemeine Java-Themen	44	30. Apr 2022
N	Schnellste Methode, ein Array durchzugehen?	Allgemeine Java-Themen	9	10. Mrz 2022
E	Methoden abstract static Methode	Allgemeine Java-Themen	8	8. Jan 2022
E	Eine Methode einer extendeten Klasse deakitivieren	Allgemeine Java-Themen	12	7. Jan 2022
F	Getter Methode aufrufen funktioniert nicht	Allgemeine Java-Themen	1	21. Mai 2021
B	In Java Methode mit generic input und output basteln?	Allgemeine Java-Themen	4	4. Mai 2021
	Datentypen Welche Methode hat die bessere Performance?	Allgemeine Java-Themen	12	26. Feb 2021
R	Lambda Expression in einer Methode execute() aufrufen (execute() ist eine Methode aus dem funktionalen Interface Command)	Allgemeine Java-Themen	5	15. Jan 2021
T	C++ Methode Übersetzung in Java	Allgemeine Java-Themen	3	16. Dez 2020
L	Erste Schritte TDD testen einer Methode mit injezierten Services?	Allgemeine Java-Themen	12	23. Sep 2020
R	@author vor Methode (eclipse)	Allgemeine Java-Themen	1	17. Jun 2020
J	RotSchwarzBaum: Löschen mittels insert-Methode	Allgemeine Java-Themen	20	8. Jun 2020
Y	Java Bruttoberechnen + runden Methode	Allgemeine Java-Themen	1	27. Mai 2020
R	Warum ist die Methode unendlich oft rekursiv?	Allgemeine Java-Themen	5	26. Apr 2020
R	Methoden Was fehlt mir bzw. muss ich bei der Methode countHarshabNumbers ändern damit ich die Harshad Zahlen im Intervall [51, 79] zählen kann?	Allgemeine Java-Themen	19	12. Apr 2020
D	ArrayListe delete Methode klappt nicht	Allgemeine Java-Themen	12	25. Mrz 2020
	Wie finde ich den Aufrufer zu einer Methode, die sich nicht in meinem Projekt befindet?	Allgemeine Java-Themen	2	2. Mrz 2020
A	Ist ein enum hier richtig? Enum toString() Methode.	Allgemeine Java-Themen	1	23. Feb 2020
	brute force methode verbessern?	Allgemeine Java-Themen	6	28. Jan 2020
	passwort meines pc per brute force methode knacken	Allgemeine Java-Themen	4	24. Jan 2020
S	static methode im Interface	Allgemeine Java-Themen	1	10. Jan 2020
M	Konstruktor einer Methode	Allgemeine Java-Themen	35	30. Nov 2019
A	HashMap Methode "get()"-Problem	Allgemeine Java-Themen	28	23. Okt 2019
E	Hat der Compiler einen Fehler oder warumbeendet return nicht eine Methode ?	Allgemeine Java-Themen	7	7. Okt 2019
T	Sinn einer toString Methode	Allgemeine Java-Themen	3	7. Sep 2019
T	Split() Methode funktioniert nicht?!	Allgemeine Java-Themen	11	26. Aug 2019
L	Methoden Über Reflections eine Methode mit aufrufen	Allgemeine Java-Themen	3	26. Aug 2019
S	Kann ich eine Methode schreiben die alle Arten von funktionalen Interfaces akzeptiert..?	Allgemeine Java-Themen	21	1. Aug 2019
L	ToString-Methode	Allgemeine Java-Themen	6	19. Jun 2019
X	Datentypen NPE in längerer Methode	Allgemeine Java-Themen	12	18. Jun 2019
I	Methoden Generics-Methode	Allgemeine Java-Themen	3	20. Mai 2019
H	Strategy Pattern - changeColor() Methode - input rgd oder hex einlesen	Allgemeine Java-Themen	1	14. Jan 2019
T	statische Variable und nicht-statische Methode	Allgemeine Java-Themen	2	14. Jan 2019
B	Aufruf der Methode ergibt eine Exception	Allgemeine Java-Themen	13	13. Jan 2019
M	Wie kann ich ein int[] Array in einer Methode benutzen?	Allgemeine Java-Themen	6	1. Jan 2019
M	Wie kann man eine void Methode mit Variablen von zwei verschiedenen Objekten ausführen?	Allgemeine Java-Themen	15	28. Dez 2018
F	Was ist der Dateityp meines Parameters für die Main Methode.	Allgemeine Java-Themen	6	17. Nov 2018
F	Variablen Palindromzahl (Probleme mit Methode)	Allgemeine Java-Themen	9	6. Nov 2018
B	APi methode kurz anhalten	Allgemeine Java-Themen	8	21. Aug 2018
P	Methode aus anderem Paket aufrufen	Allgemeine Java-Themen	1	19. Aug 2018
K	ursprüngliche ArrayList ändert sich bei Übergabe in Methode	Allgemeine Java-Themen	18	1. Jun 2018
R	Rekursive Methode	Allgemeine Java-Themen	8	21. Mai 2018
	Methode einer Klasse meldet Fehler "misplaced construct(s)"	Allgemeine Java-Themen	13	25. Apr 2018
R	Wo ist mein Fehler in der Methode DRINGEND	Allgemeine Java-Themen	9	24. Apr 2018
I	Collection - contains-Methode überschreiben (anonyme innere Klasse)	Allgemeine Java-Themen	4	21. Apr 2018
E	RMI NULL-Pointer-Exeception wenn der RMI-Proxy eine Methode deligiert	Allgemeine Java-Themen	2	16. Apr 2018
S	Methoden Liste soll Methode aus innerer Klasse aufrufen	Allgemeine Java-Themen	4	16. Mrz 2018
M	Methoden Generische Methode für ArrayList	Allgemeine Java-Themen	7	27. Jul 2017
D	HTTP Aufruf einer Methode aus einem Servlet heraus	Allgemeine Java-Themen	0	16. Jun 2017
C	Threads Methode verhält sich merkwürdig	Allgemeine Java-Themen	18	21. Mai 2017
R	rekursive und iterative Methode	Allgemeine Java-Themen	3	25. Apr 2017
P	Methoden Anwendung der allMatch()-Methode	Allgemeine Java-Themen	5	5. Mrz 2017
G	Programm, das nach abgearbeiteter main Methode weiterläuft	Allgemeine Java-Themen	72	27. Feb 2017
D	Methoden Methode zum Steinschnitt	Allgemeine Java-Themen	2	21. Jan 2017
U	OOP Warum kann ich aus meiner Methode keinen String auslesen	Allgemeine Java-Themen	4	21. Dez 2016
T	Methoden Methode zum durchsuchen einer ArrayList	Allgemeine Java-Themen	8	24. Okt 2016
D	Returnwert aus einer Methode gerundet ausgeben lassen	Allgemeine Java-Themen	2	7. Okt 2016
S	equals-Methode bestimmer Klassen abfangen	Allgemeine Java-Themen	2	17. Sep 2016
H	Methoden Methode 'updateItem' der Klasse 'TreeCell'	Allgemeine Java-Themen	3	10. Sep 2016
	Methode greift nicht auf JTextPanel zu	Allgemeine Java-Themen	3	18. Aug 2016
R	Methode in Methode voraussetzen	Allgemeine Java-Themen	8	15. Aug 2016
S	Überschriebene Methode der Oberklasse der Oberklasse aufrufen.	Allgemeine Java-Themen	5	25. Apr 2016
D	Methode dynamisch aufrufen	Allgemeine Java-Themen	2	17. Apr 2016
	Methode als Parameter?	Allgemeine Java-Themen	3	15. Jan 2016
M	Eigene forEach()-Methode funktioniert nicht.	Allgemeine Java-Themen	2	11. Jan 2016
	Methoden Suche Methode um Programm kurz warten zu lassen	Allgemeine Java-Themen	22	6. Okt 2015
G	Methoden Aus einem Event, wo ich weiß, dass es ausgeführt werden wird, eine Get-Methode basteln	Allgemeine Java-Themen	8	26. Sep 2015
	Methode abbrechen (Invoke von außen)	Allgemeine Java-Themen	5	16. Jul 2015
I	Methode verallgemeinern (Methode als Parameter)?	Allgemeine Java-Themen	10	15. Jul 2015
D	generische Interface und konkrete Methode	Allgemeine Java-Themen	3	19. Mai 2015
G	Threads Methode nebenbei ausführen, Status verarbeiten	Allgemeine Java-Themen	4	8. Apr 2015
H	FTP Befehl/Java Methode für Submit im z/Os (Host)	Allgemeine Java-Themen	1	26. Jan 2015
M	Fabrik Methode, gutes Beispiel?	Allgemeine Java-Themen	0	20. Jan 2015
M	WebService - Zugriff auf Webservice Methode über Browser	Allgemeine Java-Themen	1	23. Dez 2014
N	WaitForScript- methode in javafx	Allgemeine Java-Themen	1	13. Dez 2014
2	jede Stunde Methode ausführen	Allgemeine Java-Themen	8	9. Dez 2014
M	Eine static-Methode verlassen	Allgemeine Java-Themen	2	23. Nov 2014
P	"Overriden statische Methode" Statische Methode die vererbt wird	Allgemeine Java-Themen	5	18. Nov 2014
X	Komponente an Methode übergeben	Allgemeine Java-Themen	1	11. Okt 2014
A	Methode ergibt Java NullpointerException.	Allgemeine Java-Themen	3	19. Sep 2014
S	Getestete Methode um das Beste aus URL-Nutzereingaben rauszuholen..?	Allgemeine Java-Themen	4	12. Sep 2014
L	Methoden Methode gibt mir beim verschlüsseln mit RSA 0 bytes aus ?	Allgemeine Java-Themen	1	27. Aug 2014
D	Methode mit optionalen Parametern in Interface	Allgemeine Java-Themen	3	19. Aug 2014
C	DBConnection als Methode in mehreren Klassen	Allgemeine Java-Themen	4	17. Aug 2014
S	Methode funktioniert nicht als ActionListener	Allgemeine Java-Themen	4	28. Jul 2014
M	Methoden Methode Auslagern	Allgemeine Java-Themen	6	12. Jun 2014
P	4 Threads in einer Methode	Allgemeine Java-Themen	2	20. Mai 2014

Robuste Methode um Text von HTML code zu extrahieren..?

Top Contributor

ThisIsJaavaaa

Gast

Top Contributor

Top Contributor

Top Contributor

Top Contributor

Top Contributor

Ähnliche Java Themen