Hallo,
bin dabei eine Index-Datei aus verschiedenen HTML-Seiten aufzubauen. Dazu verwende ich eine Hashmap zu Speichern der einzelnen verschiedenen Wörter. Als Ausgabe präsentiere ich dann zu den Wörtern enstprechend die Dateien und wie oft das Wort in jeder Datei vorkommt. Das passt soweit, aber leider habe ich es bis jetzt nur auf Text-Dateien getestet. Wie kann ich das für HTML-Dateien anwenden.
1)Soll ich einfach überprüfen ob das Wort mit < beginnt und dieses dann einfach auslassen oder sollte ich einen professionellen parser verwenden?
2) Wie kann ich per Java zb: den html-Text einer Seite wie zb: heise online - IT-News, c't, iX, Technology Review, Telepolis per java parsen?
danke vielmals
arnold
bin dabei eine Index-Datei aus verschiedenen HTML-Seiten aufzubauen. Dazu verwende ich eine Hashmap zu Speichern der einzelnen verschiedenen Wörter. Als Ausgabe präsentiere ich dann zu den Wörtern enstprechend die Dateien und wie oft das Wort in jeder Datei vorkommt. Das passt soweit, aber leider habe ich es bis jetzt nur auf Text-Dateien getestet. Wie kann ich das für HTML-Dateien anwenden.
1)Soll ich einfach überprüfen ob das Wort mit < beginnt und dieses dann einfach auslassen oder sollte ich einen professionellen parser verwenden?
2) Wie kann ich per Java zb: den html-Text einer Seite wie zb: heise online - IT-News, c't, iX, Technology Review, Telepolis per java parsen?
danke vielmals
arnold