XML-Parsing: Whitespace zw. Elementen wird nicht ignoriert

TinKim · 7. Nov 2007

Ich benutze den Xerces-Parser mit folgendem Quellcode und zur Demo mit einem einfachen XML-Dokument:

Code:

<?xml version="1.0" ?>
<root>
  <content attr="myattr" moreattr="moremyattr">
    thecontent
  </content>
</root>

Nun ist es so, dass das Dokument nicht korrekt geparst wird, wenn ich, so wie oben Zeilenumbrüche und "unnötige" Whitespaces im XML-Dokument habe.

Hier der dazugehörige Java-Code:

Code:

    File cDir = new File(".");
    String path = cDir.getAbsolutePath();
    path = path.substring(0, path.length() - 1);
    File xmlFile = new File(path + "job.do");

      DocumentBuilderFactory factory = new DocumentBuilderFactoryImpl();
      factory.setIgnoringElementContentWhitespace(true);
      factory.setIgnoringComments(true);
      factory.setValidating(true);
      DocumentBuilder builder = factory.newDocumentBuilder();
      Document document = builder.parse(new File(xmlFile.getAbsolutePath()));

Zum Aufruf von setValidating() habe ich in der Doku folges gefunden:

setIgnoringElementContentWhitespace

public void setIgnoringElementContentWhitespace(boolean whitespace)

Specifies that the parsers created by this factory must eliminate whitespace in element content (sometimes known loosely as 'ignorable whitespace') when parsing XML documents (see XML Rec 2.10). Note that only whitespace which is directly contained within element content that has an element only content model (see XML Rec 3.2.1) will be eliminated. Due to reliance on the content model this setting requires the parser to be in validating mode. By default the value of this is set to false.

Wenn ich also setValidating() true übergebe, bekomme ich auf der Konsole folgenden Fehler:

Error: URI=file:/Sandboxes/p/job.do Line=1: Document root element "root", must match DOCTYPE root "null".
Error: URI=file:/Sandboxes/p/job.do Line=1: Document is invalid: no grammar found.

Wenn ich false übergebe, wird das nicht ausgegeben, aber das Ergebnis ist das gleiche. Das Dokument wird nicht korrekt durch meine Parsing-Aktionen wiedergeben.

Muss ich nun extra ein XML Schema oder eine DTD vorbereiten? Das wäre in dem Fall mit Kanonen auf Spatzen geschossen?!

Wie kriege ich also ein vollständiges "ignore whitespace" hin?
Danke und viele Grüsse,
Kim

fehlerfinder · 7. Nov 2007

TinKim hat gesagt.:
Code:

<?xml version="1.0" ?> <root> ...

Code:

factory.setIgnoringElementContentWhitespace(true); factory.setIgnoringComments(true); factory.setValidating(true);

Könnte es sein, dass du das "setValidating(true)" vor den Aufruf von "setIgnoringElementContentWhitespace(true)" setzen musst?

TinKim hat gesagt.:
Wenn ich also setValidating() true übergebe, bekomme ich auf der Konsole folgenden Fehler:

Code:

Error: URI=file:D:/Sandboxes/p/job.do Line=1: Document root element "root", must match DOCTYPE root "null". Error: URI=file:D:/Sandboxes/p/job.do Line=1: Document is invalid: no grammar found.

Das sieht mir allerdings ganz danach aus, als ob dein Dokument nicht in Ordnung ist. Versuch doch mal das Folgende in Zeile 2 deiner xml-Datei einzubauen:

Code:

<!DOCTYPE einDocTyp>

und berichte von deinen Ergebnissen.

20mithrandir · 7. Nov 2007

Du musst zwingend eine DTD verwenden, wenn du Whitespaces ignorieren willst, weil der Parser sonst nicht weiß, was er ignorieren darf und was nicht. So steht's in der API Doku jedenfalls.

Deshalb verlangt er nach einer DTD, findet keine und der Error-Handler sagt "no grammar found". Wenn du keine DTD verwenden möchtest, ignoriere doch beim Verarbeiten einfach alle nicht-relevanten Textknoten und trimme die anderen...

TinKim · 7. Nov 2007

Nein, das Dokument ist in Ordnung. Habe das Problem gerade gelöst. Ich habe nach dem ersten getFirstChild() auf die daraus resultierenden node-Typen ein weiteres getFirstChild() ausgeführt. Das lieferte mir dann ganz korrekt den Whitespace als Element-Content - mein Problem lag also ganz woanders.

Die Vorbereitung des Parsers, so wie oben beschrieben, ist also korrekt.

Trotzdem herzlichen Dank für Deine Hilfe!
Kim

TinKim · 7. Nov 2007

@ 20mithrandir
Richtig, genau das habe ich jetzt erkannt. DTD oder noch "schlimmer" XML Schema wäre für das kleine Projekt hier allerdings übel über's Ziel hinausgeschossen ;-)

	Titel	Forum	Antworten	Datum
M	Gson Enum parsing	XML & JSON	0	18. Mai 2015
M	SAX-Parsing Probleme	XML & JSON	23	1. Jan 2011
M	XML Parsing von Paketen	XML & JSON	12	22. Jun 2010
D	Probleme beim SAX parsing	XML & JSON	4	28. Mai 2007
O	Parsing bricht ab	XML & JSON	11	10. Mrz 2006
Z	XML Import/Export mit Support von unbekannten Attributen/Elementen	XML & JSON	4	27. Mai 2024
G	xslt Attributwerte von bestimmten Elementen	XML & JSON	2	18. Jan 2012
S	Attribute von Elementen auslesen mit XPath	XML & JSON	2	6. Mai 2011
G	Whitespaces zwischen den Elementen entfernen	XML & JSON	14	18. Dez 2008
G	jaxb Vector (oder ähnliches) von Elementen generieren	XML & JSON	6	17. Nov 2008
N	jdom problem beim lesen von child elementen	XML & JSON	5	12. Jun 2008
D	Wie kann ich Namespace Attribute in den Elementen entfernen?	XML & JSON	2	8. Nov 2007
G	Frage zu erreichen von Elementen	XML & JSON	3	25. Dez 2004
R	JAVA und DOM, probleme beim einfügen von elementen ??????	XML & JSON	6	26. Aug 2003

XML-Parsing: Whitespace zw. Elementen wird nicht ignoriert

TinKim

Mitglied

fehlerfinder

Bekanntes Mitglied

20mithrandir

Aktives Mitglied

TinKim

Mitglied

TinKim

Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen