Hi,
ich sitze nun schon seit längerem immer mal wieder an der Aufgabe, einen HTML-File in plain TXT umzuwandeln. Prinzipiell gibt es da ja genug Tools mit Gui, aber ich brauch es im Code, also eine Library am besten, da ich es nicht alles selbst machen will und es ja bestimmt irgendwo schon was gibt, das ich aber einfach nicht finde.
Bisher habe ich folgendes versucht: html2text bzw. html2txt unter Linux (Konsolenaufruf im Code), das funktioniert gut, hatten wir bis vor kurzem so gemacht, aber wenn man mal grad kein Linux zur Stelle hat, wie im Moment, ist man aufgeschmissen...
Zweiter Versuch (nach vielen anderen Fehlschlägen) war jetzt der Yoshicoder Konverter (http://people.iq.harvard.edu/~wlowe/Converter.html), der hat im ersten Moment gut funktioniert, ist nicht schwer zu bedienen, ist aber nur beta und bringt mir nun eine Fehlermeldung, die ich nicht wegbekomme, obwohl ich nichts geändert habe, nachdem es mal lief:
Ist irgendwas internes, die Eingabe stimmt jedenfalls. Vielleicht liegt es daran, dass der Aufruf in einem von mehreren Threads läuft? Aber wie gesagt,es lief schonmal...
Weiß jemand etwas, was ich noch probieren könnte, wo es andere Tools/Libs gibt? Ob ich einen File direkt eingeben muss bzw. bekomme oder einen String, ist mir prinzipiell egal. Kann man da relativ einfach irgendwie SAX, DOM, etc... verwenden?
Vielen Dank schonmal für die Antworten..
Gruß, Axxel
ich sitze nun schon seit längerem immer mal wieder an der Aufgabe, einen HTML-File in plain TXT umzuwandeln. Prinzipiell gibt es da ja genug Tools mit Gui, aber ich brauch es im Code, also eine Library am besten, da ich es nicht alles selbst machen will und es ja bestimmt irgendwo schon was gibt, das ich aber einfach nicht finde.
Bisher habe ich folgendes versucht: html2text bzw. html2txt unter Linux (Konsolenaufruf im Code), das funktioniert gut, hatten wir bis vor kurzem so gemacht, aber wenn man mal grad kein Linux zur Stelle hat, wie im Moment, ist man aufgeschmissen...
Zweiter Versuch (nach vielen anderen Fehlschlägen) war jetzt der Yoshicoder Konverter (http://people.iq.harvard.edu/~wlowe/Converter.html), der hat im ersten Moment gut funktioniert, ist nicht schwer zu bedienen, ist aber nur beta und bringt mir nun eine Fehlermeldung, die ich nicht wegbekomme, obwohl ich nichts geändert habe, nachdem es mal lief:
Code:
Exception in thread "group2" java.lang.Error: HTMLScanner can't cope with 116 in state 21
Weiß jemand etwas, was ich noch probieren könnte, wo es andere Tools/Libs gibt? Ob ich einen File direkt eingeben muss bzw. bekomme oder einen String, ist mir prinzipiell egal. Kann man da relativ einfach irgendwie SAX, DOM, etc... verwenden?
Vielen Dank schonmal für die Antworten..
Gruß, Axxel