HTML Parsing errors

hirsra · 16. Okt 2012

Hi.

Ich versuche eine Webseite mit folgendem Code zu parsen.

Java:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.Collections;

import javax.swing.text.AttributeSet;
import javax.swing.text.MutableAttributeSet;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTML.Tag;
import javax.swing.text.html.HTMLDocument;
import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.parser.ParserDelegator;

public final class HTMLscanner extends HTMLEditorKit.ParserCallback {
    private static final HTMLscanner SCANNER = new HTMLscanner();

    /** Private constructor requested by checkstyle. */
    private HTMLscanner() { }

    /**
     * @param t is the found tag
     * @param a are the attributes for the tag
     * @param pos in the stream(in characters)
     * @see javax.swing.text.html.HTMLEditorKit.ParserCallback#handleStartTag(javax.swing.text.html.HTML.Tag, javax.swing.text.MutableAttributeSet, int)
     */
    @Override
    public void handleStartTag(final Tag t, final MutableAttributeSet a, final int pos) {

        System.out.println(String.format("handleStartTag: tag=%s, attributes=%s, pos=%s", t, a, Integer.valueOf(pos)));
        if (a.toString().contains("href=http://img.geocaching.com/cache/large")) {
            System.out.println(String.format("tag=%s", t));
            for (final Object obj : Collections.list(a.getAttributeNames())) {
                System.out.println(String.format("\tattr=%s, value=%s", obj, a.getAttribute(obj)));
            }
        }
        super.handleStartTag(t, a, pos);
    }

    /**
     * @see javax.swing.text.html.HTMLEditorKit.ParserCallback#handleEndTag(javax.swing.text.html.HTML.Tag, int)
     */
    @Override
    public void handleEndTag(final Tag t, final int pos) {

        System.out.println(String.format("handleEndTag: tag=%s, pos=%s", t, Integer.valueOf(pos)));
        super.handleEndTag(t, pos);
    }

    /**
     * @param errorMsg
     * @param pos
     * @see javax.swing.text.html.HTMLEditorKit.ParserCallback#handleError(java.lang.String, int)
     */
    @Override
    public void handleError(final String errorMsg, final int pos) {

        System.out.println(String.format("handleError: %s: %s", errorMsg, Integer.valueOf(pos)));
        super.handleError(errorMsg, pos);
    }

    /**
     * Start point for the application.
     * @param args are the command line arguments
     */
    public static void main(final String[] args) {
        final String name = "http://www.geocaching.com/seek/cache_details.aspx?wp=GC3JAKN";

        System.out.println(String.format("scanning %s", name));

        try {
            final URL url = new URL(name);
            final URLConnection connection = url.openConnection();
            final InputStream is = connection.getInputStream();
            final InputStreamReader isr = new InputStreamReader(is);
            final BufferedReader br = new BufferedReader(isr);
            final HTMLEditorKit htmlKit = new HTMLEditorKit();
            final HTMLDocument htmlDoc = (HTMLDocument) htmlKit.createDefaultDocument();
            final HTMLEditorKit.Parser parser = new ParserDelegator();
            final HTMLEditorKit.ParserCallback callback = SCANNER;

            parser.parse(br, callback, true);

            for (final HTMLDocument.Iterator iterator = htmlDoc.getIterator(HTML.Tag.A);
                    iterator.isValid();
                    iterator.next()) {
                final AttributeSet attributes = iterator.getAttributes();
                final String srcString = (String) attributes.getAttribute(HTML.Attribute.HREF);

                System.out.println(srcString);
            }
        } catch (final IOException exception) {
            exception.printStackTrace(System.out);
        }
    }

}

Dabei wird zwar das für mich interessante Tag erkannt; jedoch nicht alle Attribute für dieses Tag.(z.B. title) Stattdessen werden viele Fehlermeldungen ausgegeben!
(in

Java:

handleStartTag()

wird nur das interessante Tag ausgegeben)

Die gesamte Ausgabe des Programmes habe ich als Anhang beigefügt!

Für mich stellen sich im Augenblick zwei Fragen:
Wie ich die Parsingfehler beheben kann?
Wieso werden nicht alle Attribute erkannte und wie kann ich das verbessern?

Vielen Dank schon mal für Eure Hilfe
Rainer

Marco13 · 16. Okt 2012

Du selbst kannst da nicht viel machen, was NICHT mit "Neuschreiben eines Parsers" zu tun hat. Es ist nunmal so, dass praktisch ALLE Webseiten im strengsten Sinne "fehlerhaft" sind. Da gibt es öffnende Tags, die nicht geschlossen werden, ungültige Tags, veraltete Elemente... Abgesehen davon ist dieses "HTMLEditorKit.ParserCallback" Zeux ein Krampf, damit kann man praktisch nichts anfangen, und das wenige was man machen kann, ist aufwändig. Und selbst WENN man es schafft, etwas rauszulesen: Durch sowas wie

Java:

if (a.toString().contains("href=http://img.geocaching.com/cache/large"))

würde es das Programm schon raushauen, wenn der Seitenbetreiber dort später Leerzeichen [c]href = http..[/c] einfügt

Für alles, was irgendwie mit "HTML Parsen und Interpretieren" zu tun hat, empfehle ich i.a. den Jericho HTML Parser . Der ist gut dokumentiert, es gibt KSKBs zu den gängigsten Aufgaben, und er frißt so ziemlich alles, wo auch nur irgendwo <spitze Klammern> drin vorkommen - natürlich beschwert er sich auch über Fehler, aber das, was lesbar ist, liefert er. Abgesehen davon wäre (falls ich das richtig verstanden habe) das, was du vorhast, hiermit erledigt:

Java:

import java.net.URL;
import java.util.List;

import net.htmlparser.jericho.Config;
import net.htmlparser.jericho.Element;
import net.htmlparser.jericho.HTMLElementName;
import net.htmlparser.jericho.LoggerProvider;
import net.htmlparser.jericho.Source;

public class ReadHTML
{
    public static void main(String[] args) throws Exception
    {
        Config.LoggerProvider = LoggerProvider.DISABLED;
        String sourceUrlString = "http://www.geocaching.com/seek/cache_details.aspx?wp=GC3JAKN";
        Source source = new Source(new URL(sourceUrlString));
        List<Element> elementList = source.getAllElements(HTMLElementName.A);
        for (Element element : elementList)
        {
            String href = element.getAttributeValue("href");
            if (href != null)
            {
                if (href.startsWith("http://img.geocaching.com/cache/large"))
                {
                    System.out.println(href);
                }
            }
        }
    }
}

hirsra · 17. Okt 2012

Hi,

danke für die schnelle Antwort. Naja, Fehler bei den bemängelten Attributen sehe ich nicht. Allerdings ist meine HTML-Wissen auch nur sehr anfängerhaft.

Dein Code werde ich asap ausprobieren. Dazu muß ich ja allerdings Jericho installieren. Ich hoffe ich schaffe das heute abend, aber ich habe heute und morgen abend noch zwei andere Termine und am Freitag geht's übers Wochenende zum Wandern. Also nicht wundern wenn ich mich erst nächste Woche melde.

Anmerkung zur Hintergrund:
Das Finden des Tags ist erst Teil 1 meines Ziels. Für diesen Tag interessieren mich jetzt speziell die Attribute title und description. (zu dem verlinkten Bild)

Schönen Gruß
Rainer

hirsra · 31. Okt 2012

Hi,

leider bin ich mit Jericho auch nicht wirklich weitergekommen da auch Jericho wohl nicht alles erkennt.

Ich versuche jetzt die HTML-Seite direkt einzulesen. Auch dabei gibt es Probleme. Hier erst mal mein Code mit dem ich die HTML-Seite lese.

Java:

package de.rh;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;

public final class TestScanner {

    public static void main(final String[] args) {

        try {
                int lineNo = 0;

                BufferedReader reader = new BufferedReader(new InputStreamReader(new URL(args[0]).openStream()));
                String line = reader.readLine();

                while (line != null) {
                    ++lineNo;
                        System.out.println(String.format("%s: %s", Integer.valueOf(lineNo), line));
                    line = reader.readLine();
                }
        } catch (final IOException exception) {
            System.out.println(String.format("%s: %s", exception.getClass().getName(), exception.getLocalizedMessage()));
        }
    }

}

Das Testprogramm erwartet als Kommandozeilenparameter die URL von welcher gelesen werden soll. Im folgenden werden folgende Varianten verwendet:

"http://www.geocaching.com/seek/cache_details.aspx?wp=GC3JAKN]GC3JAKN"
file:/Z:/Projekte.JUNO/SpoilerScanner/GC3JAKN.txt

Als Adresse gebe ich "http://www.geocaching.com/seek/cache_details.aspx?wp=GC3JAKN" an. Als Resultat werden 2139 Zeilen gelesen.

Wenn ich den Sourecode der HTML-Seite als Textdatei abspeichere und mit der Adresse file:/Z:/Projekte.JUNO/SpoilerScanner/GC3JAKN.txt die gespeicherte HTML-Seite einlesen werden 2448 Zeilen eingelesen.

In der Tat ist es so dass die für mich relevanten Zeilen in der ersten Variante nicht gelesen werden!

Kann mir das jemand erklären?

Gruß
Rainer

Marco13 · 31. Okt 2012

Aus Neugier: Was sind denn die Unterschiede? Kann man die beiden Dateien hier posten (als Anhang) ? Vielleicht hat dann jemand eine Idee...

hirsra · 31. Okt 2012

Der Unterschied? Gute Frage.

Einmal lese ich direkt über das Netz, und einmal habe ich die Seite im Browser als HTML-Code abgespeichert. D.h. die Seiten sollten eigentlich gleich sein!!!!

Marco13 · 31. Okt 2012

Der Server kann unterschiedliche Daten liefern, je nachdem, welcher Client die Anfrage stellt (kenn' mich da nicht so aus, aber mit dem ganzen PHP-Zeux geht ziemlich cranker shit), mal abgesehen von Cookie-Abfragen oder JavaScript, was den HTML-Code zwar im Browser aber nicht bei direktem Download verändern kann, oder oder oder...

hirsra · 1. Nov 2012

Das klingt aber gar nicht gut.

Aber es muß doch einen Weg geben direkt auf den Code zuzugreifen der von Browser angezeigt wird wenn man den Sourcecode von diesem anzeigen läßt.

Hat mir keiner ein Beispiel wie ich von der oben angegebenen Adresse die komplette 2448 Zeilen lesen kann?

Marco13 · 1. Nov 2012

Ich weiß nicht, ob da hier noch jemand was genaures dazu sagen kann... Vielleicht mal einen Therad erstellen, in dem es genau um diese Frage geht (das hat ja nicht mehr direkt mit HTML Parsing zu tun, und mit dem, was da Serverseitig gemacht werden kann, kenne ich mich nicht aus.)

jgh · 1. Nov 2012

mmh, also wenn ich deine Code ausführe bekomme ich sowohl im Browser, als auch in der Console exakt 768 Zeilen Code angezeigt.

	Titel	Forum	Antworten	Datum
O	Mit jsoup Text aus HTML-Datei rausgrabben	Allgemeine Java-Themen	29	2. Jul 2024
S	Bookmark HTML Datei einlesen, alle Links erhalten und manche editieren..? (aktuell JSoup)	Allgemeine Java-Themen	4	7. Jul 2022
S	HTML einer Webseite 1:1 so bekommen wie es auch der Browser anzeigt?	Allgemeine Java-Themen	14	30. Jun 2022
C	Parsen einer sich updatenden Html mithilfe von jsoup	Allgemeine Java-Themen	4	27. Jan 2022
I	HTML / XHTML Seite nach Excel exportieren. Suche Lib	Allgemeine Java-Themen	12	30. Jul 2021
F	Kennt ihr eine Library um 2 HTML Seiten zu diffen?	Allgemeine Java-Themen	8	20. Jul 2021
K	HTMLEditor HTML Text in Rich Text umwandeln	Allgemeine Java-Themen	14	5. Apr 2021
N	Value Wert aus HTML-Button mittels thymeleaf spring an java übergeben	Allgemeine Java-Themen	2	26. Nov 2020
N	Lottowebsite programmieren mittels Java, HTML,....	Allgemeine Java-Themen	7	25. Nov 2020
S	HTML den ich von einer URL hole nicht identisch mit dem HTML im Browser	Allgemeine Java-Themen	1	3. Apr 2020
M	Html Seite auslesen	Allgemeine Java-Themen	16	16. Sep 2018
	Website HTML Code von HTTPS URL laden	Allgemeine Java-Themen	0	13. Okt 2017
L	HTML Formular ausführen	Allgemeine Java-Themen	1	29. Jul 2017
J	Auslesen Daten Java/HTML	Allgemeine Java-Themen	15	12. Dez 2016
A	Applet in HTML einbinden	Allgemeine Java-Themen	1	16. Nov 2016
	JSoup - HTML Tag entfernen	Allgemeine Java-Themen	1	30. Sep 2016
I	HTML einer Website auslesen liefert nur head	Allgemeine Java-Themen	6	3. Mai 2016
	HTML Code decodieren	Allgemeine Java-Themen	2	22. Mrz 2016
	Mehrere html seiten einer Homepage einlesen und als Textdatei ausgeben	Allgemeine Java-Themen	14	23. Aug 2015
P	HTML Text bearbeiten	Allgemeine Java-Themen	1	28. Okt 2014
A	Probleme beim auslesen von Quelltext (HTML)	Allgemeine Java-Themen	5	25. Mai 2014
	String aus html einlesen	Allgemeine Java-Themen	2	20. Apr 2014
	Substring einer HTML Seite will nicht	Allgemeine Java-Themen	5	16. Mrz 2014
S	Applet in html laden; InvocationTargetException,.. nur warum ?	Allgemeine Java-Themen	0	29. Jan 2014
R	HTML Tabelle durchsuchen	Allgemeine Java-Themen	3	10. Jan 2014
L	Erste Schritte Eclipse und Lokal funktioniert - in HTML nicht!	Allgemeine Java-Themen	2	5. Feb 2013
T	Keyword Highlighting in HTML	Allgemeine Java-Themen	5	9. Jan 2013
B	Best Practice HTML Output Optimal implementieren	Allgemeine Java-Themen	3	7. Jan 2013
A	jEditorPane Html Datei öffnen (code)	Allgemeine Java-Themen	3	18. Dez 2012
Y	Applet/Html - Wie Java-Methode aufrufen, die einen Parameter erwartet?	Allgemeine Java-Themen	3	21. Nov 2012
P	Aktuellen HTML Code auslesen (von JS manipuliert)	Allgemeine Java-Themen	3	8. Okt 2012
M	HTML-Code von Webseite über Browser oder Console auslesen??	Allgemeine Java-Themen	5	2. Sep 2012
S	Robuste Methode um Text von HTML code zu extrahieren..?	Allgemeine Java-Themen	6	27. Jul 2012
S	Bekomme mit Scanner und URL keine Html-Seite ausgelesen	Allgemeine Java-Themen	3	12. Jun 2012
C	JEditorPane langsam großes HTML	Allgemeine Java-Themen	8	10. Mai 2012
M	html aus aktuellem Browserfenster mitlesen lassen	Allgemeine Java-Themen	5	9. Apr 2012
G	Kann HTML Datei nicht lesen	Allgemeine Java-Themen	3	4. Apr 2012
S	HTML-Quelltext nach bestimmter Stelle durchsuchen	Allgemeine Java-Themen	2	27. Mrz 2012
B	HTML Tags in Strings umwandeln	Allgemeine Java-Themen	4	24. Mrz 2012
S	BufferedReader/PrintWriter an einer HTML	Allgemeine Java-Themen	6	19. Feb 2012
T	HTML Tag Position mittels Pattern ermitteln	Allgemeine Java-Themen	7	8. Feb 2012
C	Attribute aus HTML Tags auslesen	Allgemeine Java-Themen	6	18. Jan 2012
M	Wicket Html	Allgemeine Java-Themen	2	16. Jan 2012
S	Fehler beim ausführen des HTML	Allgemeine Java-Themen	7	15. Jan 2012
S	Fehler Applet-HTML	Allgemeine Java-Themen	5	14. Jan 2012
B	suchfunktion in html integrieren	Allgemeine Java-Themen	3	30. Nov 2011
	Wieso ist Javadoc mit Html Tags?	Allgemeine Java-Themen	47	4. Sep 2011
P	RegEx mit HTML Parser für Java möglich?	Allgemeine Java-Themen	10	6. Jul 2011
B	RTF zu HTML	Allgemeine Java-Themen	3	4. Jul 2011
S	Von HTML-Seite den Titel bekommen	Allgemeine Java-Themen	2	29. Jun 2011
M	.jar in HTML einbinden	Allgemeine Java-Themen	5	12. Jun 2011
H	Kleiner HTML Parser (Facharbeit)	Allgemeine Java-Themen	11	8. Jun 2011
K	iText, HTML Einrückung im Document, aber nicht im Paragraph	Allgemeine Java-Themen	3	4. Jun 2011
J	Überprüfen ob URL eine HTML Datei referenziert	Allgemeine Java-Themen	4	1. Jun 2011
E	Zeilenumbruch html	Allgemeine Java-Themen	3	12. Mai 2011
J	URLs aus HTML Datei extrahieren	Allgemeine Java-Themen	2	14. Apr 2011
G	Swing JEditorPaneAppender (Output im HTML-Format)	Allgemeine Java-Themen	12	14. Apr 2011
W	Java Anwendung in HTML	Allgemeine Java-Themen	2	22. Feb 2011
M	Html Unit Whitespace-Problem	Allgemeine Java-Themen	4	8. Feb 2011
J	HTML-Sonderzeichen ersetzen	Allgemeine Java-Themen	2	6. Feb 2011
M	HTML-Websiten verarbeiten	Allgemeine Java-Themen	8	17. Jan 2011
A	Index Datei aus HTML-Dateien	Allgemeine Java-Themen	7	8. Jan 2011
S	HTML => DOM - Welcher Parser für meine Zwecke?	Allgemeine Java-Themen	3	7. Jan 2011
I	HTML Seite laden	Allgemeine Java-Themen	6	8. Nov 2010
W	Saubere Lösung für das Auslesen einer Html Seite (Mehrsprachigkeit)	Allgemeine Java-Themen	5	15. Okt 2010
M	String in Html Text umwandeln	Allgemeine Java-Themen	2	25. Sep 2010
S	Formatierungen aus HTML-Dokument übernehmen und in Word docx schreiben	Allgemeine Java-Themen	3	8. Sep 2010
E	HTML File mit Umlaute einlesen	Allgemeine Java-Themen	8	3. Sep 2010
T	HTML Parser	Allgemeine Java-Themen	7	1. Sep 2010
E	Regex HTML Tag und Inhalt löschen	Allgemeine Java-Themen	4	11. Aug 2010
S	Swing mit JEditorPane per HTML auf Bilder in JAR zugreifen.	Allgemeine Java-Themen	3	27. Jul 2010
S	Regulärer Ausdruck für HTML-Tag	Allgemeine Java-Themen	18	27. Jul 2010
H	Java Methode zum HTML encodieren/decodieren	Allgemeine Java-Themen	2	24. Jun 2010
	Bug in Copy-Funktion bei HTML-Editorpane?	Allgemeine Java-Themen	4	17. Mai 2010
M	JApplet einbinden in HTML	Allgemeine Java-Themen	19	3. Mai 2010
F	Problem mit regulären Ausdruck in Zusammenhang mit HTML	Allgemeine Java-Themen	8	7. Apr 2010
T	JavaScript aus HTML im JEditorPane ausführen?	Allgemeine Java-Themen	5	11. Mrz 2010
S	PDF nach HTML oder XML	Allgemeine Java-Themen	2	8. Mrz 2010
O	Tastendrücke in verstecktes HTML-Formular schreiben	Allgemeine Java-Themen	4	16. Feb 2010
D	Strings von HTML befreien	Allgemeine Java-Themen	17	23. Jan 2010
A	HTML-Seite aufrufen, drucken und zum Programm zurückkehren	Allgemeine Java-Themen	2	17. Jan 2010
E	Html tags entfernen optimieren	Allgemeine Java-Themen	12	24. Dez 2009
Q	API zum Verarbeiten von HTML	Allgemeine Java-Themen	4	23. Okt 2009
	PDF mit seiner Formatierung in HTML umwandeln	Allgemeine Java-Themen	15	22. Sep 2009
B	Java in HTML stellen	Allgemeine Java-Themen	11	14. Aug 2009
M	id aus HTML (Regex)	Allgemeine Java-Themen	7	5. Aug 2009
D	HTML mit Java verknüpfen	Allgemeine Java-Themen	2	29. Jul 2009
W	HTML-Pfad	Allgemeine Java-Themen	4	21. Jul 2009
G	HTML-Datei einlesen, Plain Text in Textfile speichern	Allgemeine Java-Themen	4	30. Jun 2009
A	HTML-Seite wieder schließen	Allgemeine Java-Themen	2	28. Jun 2009
E	JTidy html "hidden" Button drücken	Allgemeine Java-Themen	7	24. Jun 2009
	Regex zur Suche von "value-losen" Attributen in HTML Tags	Allgemeine Java-Themen	7	12. Jun 2009
	Java und HTML-Seiten mit Bildern - Wie passt das zusammen?	Allgemeine Java-Themen	2	1. Mai 2009
C	Applet: JFileChooser: PFad an HTML zürückgeben	Allgemeine Java-Themen	4	2. Apr 2009
T	Webseite (HTML) Parser gesucht	Allgemeine Java-Themen	8	25. Jan 2009
	RegEx: UBB in HTML konvertieren, Problem Verschachtelung	Allgemeine Java-Themen	3	10. Dez 2008
T	html Datei in jrxml Datei (JasperReports) umwandeln	Allgemeine Java-Themen	6	8. Aug 2008
J	Seltsame Exception beim Java Applet einbinden in Html	Allgemeine Java-Themen	2	29. Jul 2008
G	Import von HTML-Dateien	Allgemeine Java-Themen	5	17. Jun 2008
	Tidy HTML baum durchlaufen	Allgemeine Java-Themen	5	27. Mai 2008

HTML Parsing errors

hirsra

Aktives Mitglied

Anhänge

Marco13

Top Contributor

hirsra

Aktives Mitglied

hirsra

Aktives Mitglied

Marco13

Top Contributor

hirsra

Aktives Mitglied

Marco13

Top Contributor

hirsra

Aktives Mitglied

Marco13

Top Contributor

jgh

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen