Hallo liebe Leute
Folgendes Problem stellt sich mir derzeit: Ich soll im Rahmen eines Projekts die DOM Trees einer beliebigen Webpage inklusive Unterseiten (DiePresse.com, derStandard.at etc.) in Java speichern bzw. mittels Algorithmus bearbeiten können. (Die DOM-Trees der Hauptseite und der Unterseiten sollen miteinander verglichen werden und dann relevanter Content mittels SST-Algorithmus extrahiert werden)
Welcher Parser wäre hierzu am besten geeignet? Da viele Seiten wohl kaum besonders XML-konform sein werden brauche ich also einen relativ fehlertoleranten HTML-Parser, und wie komme ich von da ausgehend zum DOM-Tree?
Hat da jemand Beispiele oder Tipps für mich? - ich habe jetzt einige Monate kaum programmiert und bin dahingehend etwas eingerostet..
lg Markus
Folgendes Problem stellt sich mir derzeit: Ich soll im Rahmen eines Projekts die DOM Trees einer beliebigen Webpage inklusive Unterseiten (DiePresse.com, derStandard.at etc.) in Java speichern bzw. mittels Algorithmus bearbeiten können. (Die DOM-Trees der Hauptseite und der Unterseiten sollen miteinander verglichen werden und dann relevanter Content mittels SST-Algorithmus extrahiert werden)
Welcher Parser wäre hierzu am besten geeignet? Da viele Seiten wohl kaum besonders XML-konform sein werden brauche ich also einen relativ fehlertoleranten HTML-Parser, und wie komme ich von da ausgehend zum DOM-Tree?
Hat da jemand Beispiele oder Tipps für mich? - ich habe jetzt einige Monate kaum programmiert und bin dahingehend etwas eingerostet..
lg Markus