Hallo,
ich versuche für ein Projekt Daten aus eine Homepage auszulesen.
Und zwar will ich zum einen ein paar Links auslesen zum anderen den Inhalt einer Tabelle. Wobei ich die richtigen Links sowie die richtige Tabelle an den class Attributen erkennen kann.
Mein Problem ist, dass die Seite wie so oft kein valides html beinhaltet. Das konkrete Problem das ich momentan habe sind "&" statt "&" in Links.
(Ich hab es erstmal naiv mit einem normalen SAXParser versucht, hab aber schnell gesehen, dass das Blödsinn ist
.)
Ich hab im Internet nach geeigneten Parsern gesucht und bin auf tagsoup (TagSoup home page) gestoßen.
Allerdings ist mir zum einen nicht klar mit welcher tagsoup SAXFeature ich verhindern kann, dass der beschriebene Fehler eine Exception wirft.
Zum anderen klappt das setzten von Features überhaupt nicht.
Der folgende Codeschnipsel zeigt, was ich in dem Abschnitt mache, der eine org.xml.sax.SAXNotRecognizedException für das entsprechende Feature schmeißt.
Hat jemand eine Idee wie ich das hinbekommen? Ich selber habe leider kaum Erfahrung mit dem parsen von html und brauche das dringen für ein Uni Projekt.
Schonmal danke
.
ich versuche für ein Projekt Daten aus eine Homepage auszulesen.
Und zwar will ich zum einen ein paar Links auslesen zum anderen den Inhalt einer Tabelle. Wobei ich die richtigen Links sowie die richtige Tabelle an den class Attributen erkennen kann.
Mein Problem ist, dass die Seite wie so oft kein valides html beinhaltet. Das konkrete Problem das ich momentan habe sind "&" statt "&" in Links.
(Ich hab es erstmal naiv mit einem normalen SAXParser versucht, hab aber schnell gesehen, dass das Blödsinn ist
Ich hab im Internet nach geeigneten Parsern gesucht und bin auf tagsoup (TagSoup home page) gestoßen.
Allerdings ist mir zum einen nicht klar mit welcher tagsoup SAXFeature ich verhindern kann, dass der beschriebene Fehler eine Exception wirft.
Zum anderen klappt das setzten von Features überhaupt nicht.
Der folgende Codeschnipsel zeigt, was ich in dem Abschnitt mache, der eine org.xml.sax.SAXNotRecognizedException für das entsprechende Feature schmeißt.
Java:
//ein InputStream "in" und ein DefaultHandler "handler" sind vorhanden...
SAXParserFactory parserFactory = SAXFactoryImpl.newInstance();
parserFactory.setFeature("http://www.ccil.org/~cowan/tagsoup/features/ignore-bogons", true);
SAXParser parser = parserFactory.newSAXParser();
parser.parse(in, handler);
Hat jemand eine Idee wie ich das hinbekommen? Ich selber habe leider kaum Erfahrung mit dem parsen von html und brauche das dringen für ein Uni Projekt.
Schonmal danke