Hallo,
ich nutze bisher Boilerpipe um Text von HTML code (dieser liegt als String vor) zu extrahieren. Das klappt ganz gut.
Nun muss ich das ganze auf diverse Platformen portieren wo Boilerpipe nicht funktioniert (keine vollstaendige JRE Bibliothek vorhanden). Die Schnittmenge dieser Platformen ist sehr gering.
Nun frage ich mich...gibt es eine Robuste Methode die mit sehr einfachen Mitteln den Text aus HTML-code rausholen kann. Am liebsten waere mir ein Projekt, dass genau das macht und das getestet und robust ist. Mal schnell einen Regex zusammenhacken der dann prinzipiell funktioniert aber dann spaeter einem um die Ohren fliegt will ich vermeiden.
Die Text-Extrahierung muss nicht super-sauber sein, aber sie soll stabil sein und in 99,9% der Faelle ein gutes Ergebnis liefern.
Kann mir jemand was empfehlen? In Javascript hab ich sowas schon irgendwo mal gesehen...aber Google ist heute scheinbar nicht mein Freund oder es gibt bisher nichts fuer Java.
vielen Dank,
sb
ich nutze bisher Boilerpipe um Text von HTML code (dieser liegt als String vor) zu extrahieren. Das klappt ganz gut.
Nun muss ich das ganze auf diverse Platformen portieren wo Boilerpipe nicht funktioniert (keine vollstaendige JRE Bibliothek vorhanden). Die Schnittmenge dieser Platformen ist sehr gering.
Nun frage ich mich...gibt es eine Robuste Methode die mit sehr einfachen Mitteln den Text aus HTML-code rausholen kann. Am liebsten waere mir ein Projekt, dass genau das macht und das getestet und robust ist. Mal schnell einen Regex zusammenhacken der dann prinzipiell funktioniert aber dann spaeter einem um die Ohren fliegt will ich vermeiden.
Die Text-Extrahierung muss nicht super-sauber sein, aber sie soll stabil sein und in 99,9% der Faelle ein gutes Ergebnis liefern.
Kann mir jemand was empfehlen? In Javascript hab ich sowas schon irgendwo mal gesehen...aber Google ist heute scheinbar nicht mein Freund oder es gibt bisher nichts fuer Java.
vielen Dank,
sb