Langsam beim SAX-Parsen - woran liegts?

Ghast · 28. Sep 2012

Hallo,

mein Ziel ist, XML-Dateien zu parsen und daraus neue, nach bestimmten Tags gefilterte XML-Dateien zu erzeugen. Die Dateien können recht groß werden, bisher haben wir eine mit 500 MB, die nur einen Bruchteil der Informationen enthält. Daher hab ich von DOM gleich abgesehen und einen SAX-Parser benutzt. Für das Verarbeiten einer 30-MB-Testdatei braucht das Programm auf meinem Rechner etwas mehr als zwei Minuten.

Eine Bremse ist mir bereits klar: In den meisten startElement()-Aufrufen wird über eine ArrayList iteriert, um zu ermitteln, ob der aktuelle Tag in die Ausgabe soll oder nicht. Die vorher durch Eingaben erzeugte ArrayList enthält die Tags, die gespeichert werden sollen und die for-Schleife bricht erst ab, wenn der aktuelle Tag in der Liste entdeckt wurde oder sie ganz durchgegangen ist.
--> Gibt es hier eine schnellere/bessere Alternative zur ArrayList? Ehrlich gesagt habe ich mich mit Collections und Iterables nicht groß beschäftigt. Die Liste wird dynamisch erstellt, ist aber beim Parsen im Prinzip fest - wäre es besser, sie einfach zu einem regulären Array umzuwandeln?

Das scheint jedoch nicht das einzige Problem zu sein. Kommentiere ich die Listeniteration aus und führe einfach nur einen einfachen Test auf Gleichheit mit einem Dummy-Tag durch, benötigt das Programm dennoch fast eine Minute, um das 30-MB-Dokument zu parsen und die mit dem Dummy identischen Tags rauszuschreiben.

Hier der Parser:

Java:

public class LexParser extends DefaultHandler {

    private Stack <Tag> evaluateTag;
    private int depth;
    private boolean insideTag = false;
    public ArrayList <Tag> selectedTags;
    private StringBuffer xmltext;
    private boolean header;
    
    // ------------------------------------------------------------------------------
    // Parser
    // ------------------------------------------------------------------------------

    public LexParser (File parsefile, ArrayList list) {
        xmltext = new StringBuffer("");
        depth = 0;
        evaluateTag = new Stack ();
        selectedTags = list;
        SAXParserFactory factory = SAXParserFactory.newInstance();
        try {
            // Ignore external DTD
            factory.setFeature("http://apache.org/xml/features/nonvalidating/load-external-dtd",false);
            // Build and start parser
            SAXParser saxParser = factory.newSAXParser();
            saxParser.parse(parsefile,this);
        }
        catch (ParserConfigurationException e) {
            System.out.println("Configuration error");
            return;
        }
        catch (SAXException e) {
            System.out.println("SAX error " + e.getMessage());
            return;
        }
        catch (IOException e) {
            System.out.println("IO Error " + e.getMessage());
            return;
        }
    }

    public void startDocument() {
    }

    public void endDocument() {
    }

    public void characters(char[] ch, int start, int length) {
        // collect header-characters
        if (header) {
            String text = new String (ch, start, length).replaceAll("\n","").replaceAll("\t","");
            if (!text.equals("")) {
                xmltext.append(text);
            }
        }
        else if ((!evaluateTag.empty()) && (evaluateTag.peek().getDepth() == depth-1)) {
            String text = new String (ch, start, length).replaceAll("\n","").replaceAll("\t","");
            if (!text.equals("")) {
                xmltext.append(text);
            }
            else
                for (int i = 1; i < depth; i++) xmltext.append("\t");
        }
    }

    public void startElement(String uri,String localName,String qName,Attributes attributes) throws SAXException {
        depth++;

        // header: evaluate completely
        if (qName.equals("teiHeader") || header) {
            header = true;
            xmltext.append("\n");
            for (int i=1; i<depth; i++) xmltext.append("\t");
            // output tags with their attributes
            xmltext.append("<"+qName);
            int attr = attributes.getLength();
            for (int i=0; i<attr; i++) {
                xmltext.append(" "+attributes.getQName(i)+"=\""+attributes.getValue(i)+"\"");
            }
            xmltext.append(">");
        }
        
        // first 4 layers (TEI, text, body, div): always evaluate
        else if (depth<5) {
            for (int i=1; i<depth; i++) xmltext.append("\t");
            // output tags with their attributes
            xmltext.append("<"+qName);
            int attr = attributes.getLength(); 
            for (int i=0; i<attr; i++) {
                xmltext.append(" "+attributes.getQName(i)+"=\""+attributes.getValue(i)+"\"");
            }
            xmltext.append(">\n");
        }

        // inside an evaluated tag: evaluate that tag and its relevant subtags
        else if ((!evaluateTag.empty()) && (evaluateTag.peek().getDepth() == depth-1) && (qName.equals("string")||qName.equals("numeric")||qName.equals("binary")||qName.equals("symbol")) ) {
            insideTag = true;
            xmltext.append("\n");
            for (int i = 1; i < depth; i++) xmltext.append("\t");
            // output tags with their attributes
            xmltext.append("<"+qName);
            int attr = attributes.getLength();
            for (int i=0; i<attr; i++) {
                xmltext.append(" "+attributes.getQName(i)+"=\""+attributes.getValue(i)+"\"");
             }
             xmltext.append(">");
        }
        
        // everything beneath first layer, not inside evaluated tag: evaluate according to user's choice
        else {
            Tag thistag = new Tag(qName,attributes.getValue(0),"",depth);
  
            for (Tag t: selectedTags) {
                if (t.equals(thistag)) {
                    xmltext.append("\n");
                    for (int i = 1; i < depth; i++)
                        xmltext.append("\t");
                    xmltext.append("<"+qName);
                    int attr = attributes.getLength();
                    for (int i=0; i<attr; i++) {
                        xmltext.append(" "+attributes.getQName(i)+"=\""+attributes.getValue(i)+"\"");
                    }
                    xmltext.append(">");
                    evaluateTag.push(thistag);
                    break; // don't look up rest of the list, if already matched 
                }
            }
        }
    }


    public void endElement(String uri,String localName,String qName) throws SAXException {
        
        // close header
        if (header) {
            xmltext.append("\n");
            for (int i=1; i<depth; i++) xmltext.append("\t");
            xmltext.append("</"+qName+">");
            if (qName.equals("teiHeader")) {
                header = false;
                xmltext.append("\n\n");
            }
        }
        
        // close first layers
        else if (depth<5) {
            xmltext.append("\n");
            for (int i=1; i<depth; i++) xmltext.append("\t");
            xmltext.append("</"+qName+">");
        }

        // close selected tags
        else {
            if (!evaluateTag.empty()) {
                Tag thistag = evaluateTag.peek();
                if ((qName.equals(thistag.getTagName())) && (thistag.getDepth()==depth)) {
                    xmltext.append("\n");
                    for (int i = 1; i < depth; i++) xmltext.append("\t");
                    xmltext.append("</"+qName+">\n");
                    evaluateTag.pop();
                }
                if (insideTag) {
                    xmltext.append("</"+qName+">");
                    insideTag = false;
                }   
            }
        }
        
        depth--;
    }

}

Verdächtig in Sachen Tempo finde ich noch den Stack, in dem die zu evaluierenden Tags landen ... aber ich weiß nicht genau, wie sich das eleganter lösen ließe. Der wird in characters(), startElement() und in endElement() abgefragt.

Gibt es irgendwelche auffällige Bremsen in dem Ding? Bisher musste ich zum Glück nie größere Dateien verarbeiten (XML oder sonstige). Aber daher hab ich mich dann auch nicht wirklich mit Performanz im Allgemeinen beschäftigt.

parabool · 28. Sep 2012

Prüfe das Enthaltensein in der ArrayList mittels contains = einmalige Abfrage pro aktuellen Tag.
HashSet verwenden = noch schneller.

Ghast · 28. Sep 2012

Wow. Für die contains-Abfrage musste ich die equals- und hashCode-Methoden der Klasse Tag noch einmal formgemäß überschreiben, aber jetzt funktioniert die Abfrage auf dem HashSet wunderbar. Das 30-MB-Dokument wird in knapp 2,5 Sekunden durchlaufen.

Danke!

	Titel	Forum	Antworten	Datum
T	XML mit JDOM auslesen => langsam?	XML & JSON	7	24. Apr 2007
W	Ungleiches Escaping beim Marshalling	XML & JSON	8	5. Nov 2022
S	Hilfe beim RDF-Graphen	XML & JSON	0	15. Mai 2021
R	Beim Serialisieren fehlt die letzte Zeile	XML & JSON	5	6. Dez 2018
N	Probleme bei der Formatierung beim Einfügen und löschen über DOM	XML & JSON	7	19. Apr 2018
A	Leeres Array beim Auslesen von XML-Datei	XML & JSON	4	22. Jun 2016
L	Jackson JSON: Probleme beim einlesen	XML & JSON	1	27. Mai 2014
A	XML-Fehler beim Prefix von xmlns	XML & JSON	2	13. Dez 2012
K	Beim Parsen einer XML-Datei Connection timed out	XML & JSON	4	13. Dez 2012
A	Fehler beim Erzeugen eines XML-Schema	XML & JSON	4	19. Mrz 2012
B	Validierung nur beim einlesen oder auch beim schreiben?	XML & JSON	4	13. Sep 2011
D	JAXBException beim Marshaller	XML & JSON	4	16. Jul 2011
M	Read / write Problem beim ByteStrom	XML & JSON	2	27. Jun 2011
	Problem beim parsen von Facebook XML	XML & JSON	3	23. Mai 2011
J	Dateinamen beim Start auslesen	XML & JSON	8	24. Nov 2010
F	Hilfe beim bearbeiten von XML elemente	XML & JSON	3	10. Nov 2010
N	XStream ConversionException beim Deserialisieren in (Hibernate)Objekt	XML & JSON	6	24. Sep 2010
	Probleme beim Erstellen einer XML	XML & JSON	7	18. Aug 2010
F	Probleme beim html parsen mit tagsoup	XML & JSON	4	2. Jul 2010
M	Probleme beim Parsen eines gefilterten XML-Dokuments	XML & JSON	6	30. Jun 2010
G	Problem beim schreiben von XML in eine File	XML & JSON	2	17. Jun 2010
L	Reihenfolge beim xml Datei parsen einhalten?	XML & JSON	8	15. Jun 2010
H	JAXB Probleme beim Unmarshalling	XML & JSON	3	19. Mai 2010
	Beim Erzeugen einer XML Datei auch die XML Struktur erzeugen?	XML & JSON	11	15. Apr 2010
B	Problem beim löschen von ChildNodes aus einem XML-DOM	XML & JSON	3	12. Nov 2009
E	JDOM - Problem beim Zusammenfügen zweier Dateien	XML & JSON	2	15. Okt 2009
N	Hilfe beim Einstieg in EMF	XML & JSON	6	29. Jun 2009
D	Das Programm hängt etwa 5 Sekunden beim Aufruf der parse-Methode	XML & JSON	6	4. Jun 2009
D	Tabs/Einrückungen der XML-Elemente gehen beim Schreiben verloren	XML & JSON	5	4. Mrz 2009
T	Problem beim Parsen von Attribut xmlns="urn:com:test&qu	XML & JSON	6	15. Jan 2009
G	XML Tag beim Einlesen manipulieren	XML & JSON	2	8. Dez 2008
J	Problem beim XML-Lesen	XML & JSON	2	3. Dez 2008
S	Probleme beim erstellen einer Jar	XML & JSON	12	22. Okt 2008
N	jdom problem beim lesen von child elementen	XML & JSON	5	12. Jun 2008
P	NullPointerException beim Auslesen	XML & JSON	8	5. Mai 2008
M	Performance beim Binding	XML & JSON	2	12. Jan 2008
C	SAX Probleme beim lesen	XML & JSON	4	12. Jul 2007
D	Probleme beim SAX parsing	XML & JSON	4	28. Mai 2007
E	XOM setzen von XML-Schema declaration beim erzeugen XML-File	XML & JSON	2	27. Nov 2006
	Probleme beim Parsen von XHTML-Datei	XML & JSON	4	20. Aug 2006
J	Fehler beim laden einer .xml	XML & JSON	3	12. Jul 2006
G	DOCTYPE Problem beim Transformer/TransformerFactory etc.	XML & JSON	13	3. Apr 2006
P	OutOfMemoryError beim Einlesen einer XML-Datei	XML & JSON	7	19. Sep 2005
P	Problem beim erstellen eines neuen Elements (JDOM)	XML & JSON	5	12. Sep 2005
S	JDOM-Kein indent beim XMLOutputter	XML & JSON	4	4. Sep 2005
C	Zeile herausfinden in der ein Fehler beim Einlesen entsteht	XML & JSON	3	24. Jun 2005
V	Datenverlust nach sortieren (nur beim serialisieren)	XML & JSON	4	29. Mrz 2005
S	Problem beim Erstellen eines pdfs	XML & JSON	3	29. Mrz 2005
R	Problem beim Auslesen von Attributen	XML & JSON	4	3. Nov 2004
R	JAVA und DOM, probleme beim einfügen von elementen ??????	XML & JSON	6	26. Aug 2003
	Buch Metadaten aus XML Datei parsen	XML & JSON	48	25. Apr 2019
S	XML Document Parsen und Ausgeben mit Suchfunktion	XML & JSON	21	29. Mrz 2019
M	parsen von realen HTML-WEB-Seiten	XML & JSON	1	15. Nov 2016
	parsen mit regex -> ein schnelles Ende	XML & JSON	10	5. Okt 2016
F	Parsen von Daten aus einer Homepage	XML & JSON	6	8. Nov 2012
C	Parsen des XML-Streams mit SAX	XML & JSON	3	26. Jan 2012
M	XML Datei Parsen	XML & JSON	4	2. Nov 2011
D	SAX parsen - Wie?	XML & JSON	11	8. Okt 2011
S	XML Parsen und Werte zwischenspeichern	XML & JSON	2	8. Jun 2011
K	Kurze XML Datei Parsen	XML & JSON	5	3. Jun 2011
J	Comments in XML parsen	XML & JSON	3	6. Apr 2011
H	Nicht wohlgeformtes XML mit SAX parsen	XML & JSON	2	24. Mrz 2011
M	XML Parsen JDOM NullPointerEcxeption	XML & JSON	7	18. Mrz 2011
Z	XML parsen - Element mit Werten	XML & JSON	2	14. Feb 2011
	xml nur bis auf eine bestimmte ebene parsen mit javax.xml...	XML & JSON	5	17. Jan 2011
L	[SAX] Geschachtelte XML Datei parsen	XML & JSON	3	15. Nov 2010
R	XML in UTF-8 mit SAX parsen	XML & JSON	9	12. Nov 2010
O	Parsen einer XML mit JDOM ohne Doctype Declaration	XML & JSON	2	27. Jul 2010
	Kann JUnit XML Parsen?	XML & JSON	2	21. Jun 2010
L	xml Datei parsen ohne End-Tag	XML & JSON	6	8. Jun 2010
T	RSS-Feed parsen und in Datenbank speichern	XML & JSON	6	17. Mai 2010
B	XML parsen	XML & JSON	3	15. Mrz 2010
H	XML parsen und unbekannten Namespace zurückgeben	XML & JSON	5	21. Jan 2010
L	invalide xml document parsen?!	XML & JSON	2	5. Jan 2010
S	DOM Parsen Problem mit HTML Sonderzeichen	XML & JSON	4	4. Jul 2009
	XML properties am einfachsten parsen.	XML & JSON	2	30. Mai 2009
U	xmi parsen über emf	XML & JSON	10	22. Apr 2009
S	XML-Schema einlesen um parsen zu erleichtern?	XML & JSON	2	20. Feb 2009
P	XMLGregorianCalender parsen	XML & JSON	4	16. Jul 2008
M	Datei parsen	XML & JSON	5	13. Mrz 2008
S	HTML mit dom4j parsen?	XML & JSON	2	6. Feb 2008
X	XML File auslesen/parsen u. in ne Hashmap speichern	XML & JSON	2	12. Jan 2008
	unbekannte XML Datei parsen und ausgeben	XML & JSON	10	8. Nov 2007
P	"Formatierungs-Tags" parsen	XML & JSON	3	5. Sep 2007
M	Attribute parsen	XML & JSON	6	31. Aug 2007
R	Parsen einer XML ohne Validierung	XML & JSON	2	21. Aug 2007
D	XML Datei innerhalb einer JAR Datei parsen	XML & JSON	2	8. Aug 2007
M	Xerces -Parsen mit einer externen Schemadatei geht nicht	XML & JSON	2	27. Apr 2007
L	bz2-Datei parsen	XML & JSON	9	23. Apr 2007
K	XML parsen Whitespaces	XML & JSON	2	27. Feb 2007
I	XML-String mit SAX parsen ?	XML & JSON	2	11. Okt 2006
M	Object in XML parsen	XML & JSON	2	18. Sep 2006
P	HTML Seite Parsen, und bestimmten Text extrahieren	XML & JSON	3	15. Aug 2006
X	xml und xsl parsen mit xerces	XML & JSON	8	10. Mai 2006
W	Xml-String parsen	XML & JSON	2	14. Mrz 2006
W	root element parsen,Hilfe!	XML & JSON	5	22. Jun 2005
F	Gibt es Möglichkeiten Deutsche Sätze zu parsen ?	XML & JSON	2	16. Mai 2005
A	Auf der Suche nach Bibliotheken oder wie parsen?	XML & JSON	15	12. Mai 2005
S	XML Datei mit Schemafehler parsen	XML & JSON	14	10. Feb 2005
R	StreamSource parsen !	XML & JSON	8	10. Nov 2004

Langsam beim SAX-Parsen - woran liegts?

Ghast

Gast

parabool

Bekanntes Mitglied

Ghast

Gast

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen