Guten Tag.
Ich möchte HTML Seiten filtern, so dass nur noch die wichtigsten Informationen in Textform übrig bleiben. Das heisst, dass ich alle Angaben wie z.b. Schrift, Absätze und Bilder löschen muss. Ich dachte mir ein guter Ansatz wäre das HTML in XML umzuwandeln. Um nachher, das Dokument besser zu strukturien, so dass man auf Anhieb die wichtigesten Informationen findet. Daraus würde sich dann so eine Art "Web Mining" ergeben. Ich glaube wenn man dieses XML Dokument sauber in einem JTree darstellen würde, so wäre es für den User ohne Probleme möglich sich zurecht zu finden. Bin mir jedoch nicht sicher ob XML auch wirklech der beste Ansatz ist.
Bei meinen Recherchen bin ich auf Technologien wie JDOM, JTidy und ähnliches gestossen. Ich weiss jedoch nicht wie ich diese Technologien benutzen soll um das HTML zu filtern. Es muss doch auch bereits existierende APIs dafür geben. (Bin ja nicht der Erste der auf solche eine Idee gekommen ist
)
Ich wäre froh wenn Ihr mir ein paar Tips zu existierenden APIs geben könnte. Eine Diskussion über diesen XML Ansatz würde mir auch weiterhelfen.
Vielen Dank.
SchachFritz.
Ich möchte HTML Seiten filtern, so dass nur noch die wichtigsten Informationen in Textform übrig bleiben. Das heisst, dass ich alle Angaben wie z.b. Schrift, Absätze und Bilder löschen muss. Ich dachte mir ein guter Ansatz wäre das HTML in XML umzuwandeln. Um nachher, das Dokument besser zu strukturien, so dass man auf Anhieb die wichtigesten Informationen findet. Daraus würde sich dann so eine Art "Web Mining" ergeben. Ich glaube wenn man dieses XML Dokument sauber in einem JTree darstellen würde, so wäre es für den User ohne Probleme möglich sich zurecht zu finden. Bin mir jedoch nicht sicher ob XML auch wirklech der beste Ansatz ist.
Bei meinen Recherchen bin ich auf Technologien wie JDOM, JTidy und ähnliches gestossen. Ich weiss jedoch nicht wie ich diese Technologien benutzen soll um das HTML zu filtern. Es muss doch auch bereits existierende APIs dafür geben. (Bin ja nicht der Erste der auf solche eine Idee gekommen ist
Ich wäre froh wenn Ihr mir ein paar Tips zu existierenden APIs geben könnte. Eine Diskussion über diesen XML Ansatz würde mir auch weiterhelfen.
Vielen Dank.
SchachFritz.