Validierung einer XML-Datei - Führende Leerzeichen und Tabs

SimProtect · 14. Dez 2017

Hallo,

Ich bin derzeit mit der Validierung von XML-Objekten betraut. Diese werden gegen eine oder mehrere Schemadateien validiert.
Zum Validieren nutzen wir Java-Boardmittel. (siehe Code unten)

Mir selbst wird der Inhalt der XML-Datei als String übertragen. Daran kann ich leider nichts ändern.

Leider habe ich das Problem, dass beim Einlesen auch die Leerzeichen und Tabs in den Content gezogen werden, die der besseren Lesbarkeit dienen.

Also aus

Code:

<Tag>
   <InnerTag>
      BlaBlubb
   </InnerTag>
</Tag>

wird statt "BlaBlubb" stattdessen "BlaBlubb " (die Einrückung vom InnerTag wird als Leerzeichen angefügt).

Dies führt im Rahmen unserer Validierung dazu, dass die Validierung fehlschlägt, obwohl das File eigentlich valide ist. (Entsprechende Felder lassen keine Leerzeichen am Ende zu).
Gibt es dann eine Möglichkeit, den Validator so einzustellen, dass er solche Whitespaces erkennt?

Unsere Validationsmethode sieht derzeit wie folgt aus:

Code:

private static ValidationResult validate(String fileContent, Source... sources) {
        Assert.notNull(fileContent, "Xml file for validation must not be null");
        Assert.noNullElements(sources, "Sources for validation must not be null or empty");
        SchemaFactory schemaFactory = SchemaFactory.newInstance(XMLConstants.W3C_XML_SCHEMA_NS_URI);
        ValidationResult result = new ValidationResult();
        try {
            schemaFactory.setErrorHandler(result);
            Schema schema = schemaFactory.newSchema(sources);
            Validator validator = schema.newValidator();
            validator.setErrorHandler(result);
            validator.validate(new StreamSource(new StringReader(fileContent)));
            return result;
        } catch (SAXException e) {
            return result;
        } catch (IOException e) {
            throw new IllegalStateException("An IOException occured during xml validation.", e);
        }
    }

Als Sources werden die zugehörigen Schemadateien und weitere Abhängigkeiten (z.B. xml.xsd) übergeben. Der ErrorHandler (hier ValidationResult) dient dazu, die Fehlermeldungen zu speichern, entsprechend aufzubereiten und an einzelnen Stellen darauf zu reagieren (hat etwas mit Kompatibilität zu einer älteren Version zu tun)

Eine unsere Lösungen war zunächst, im übergebenen String alle führenden Leerzeichen zu entfernen. Dies führt aber auch dazu, dass z.B. Dinge, die ein Nutzer so formatiert hat, verworfen werden würden.
Es kann ja durchaus sein, dass ein Nutzer absichtlich einen Zeilenumbruch eingefügt hat und - der Lesbarkeit halber - extra Leerzeichen eingefügt hat.

Hat da einer vielleicht eine Lösung für mich?

fhoffmann · 14. Dez 2017

SimProtect hat gesagt.:
Entsprechende Felder lassen keine Leerzeichen am Ende zu

SimProtect hat gesagt.:
Es kann ja durchaus sein, dass ein Nutzer absichtlich einen Zeilenumbruch eingefügt hat und - der Lesbarkeit halber - extra Leerzeichen eingefügt hat.

Das ist doch ein Widerspruch - da musst du klären, was wirklich gewünscht ist.

SimProtect · 15. Dez 2017

Ah, entschuldige. Ich sehe, dass das unverständlich war.

Also Leerzeichen und Zeilenumbrüchen IM Text sind in solchen Feldern erlaubt. Das Feld darf jedoch nicht mehr Leerzeichen enden.

Beispiel 1 (Nutzereingefügte Leerzeichen zweckslesbarkeit).
Hier hat der Nutzer bewusst drei Leerzeichen zu Beginn der zweiten Zeile eingefügt, weil er das für lesbarer hält. Dies ist ein valider und vom Nutzer gewünschter Zustand.

Code:

<Description>
Die Reise beginnt am
    11.11.1111 um 11:11 Uhr.
</Description>

Beispiel 2 (invalide und nicht vom Nutzer eingefügte Leerzeichen)
In diesem Dokument hat der Nutzer nur "Hier steht ein Eingabetext" eingegeben. Dieses Dokument wird mir so als String übergeben (also auch so formatiert). Im Rahmen oben genannter Validierung gegen XSDs wird dieser Text jedoch falsch eingelesen. Stattdessen wird eingelesen "Hier steht ein Eingabetext " <- es werden am Ende die drei Leerzeichen eingefügt, die der Formatierung des XML-Dokuments dienen (die drei vor dem schließenden Tag von Description). Nicht nur, dass diese nicht vom Nutzer eingegeben worden sind, sondern lassen sie auch das eigentlich valide XML-Objekt plötzlich invalide werden

Code:

<SomeElement>
   <Description>
      Hier steht ein Eingabetext
   </Description>
</SomeElement>

Vielleicht zur weiteren Erläuterung: Der Nutzer erstellt nicht händisch irgendwelche XMLs und wirft die uns dann ins System.
Diese XML-Files werden i.d.r. über verschiedene, nutzerfreundliche Eingabetools erzeugt. Auf einige könnte ich Einfluss nehmen, da wir die auch entwickeln, aber es gibt auch Fremdquellen. Da kann ich weder auf die Art und Weise Einfluss nehmen, wie das Tool das XML erstellt noch was die Nutzer genau machen.
Alles was ich weiß ist, dass ich XML-Dokumente bekommen, die gegen mehrere XSD-Files validiert werden müssen und dass mir diese als String übergeben werden.

krgewb · 15. Dez 2017

Schreib doch eine eigene Methode die wie trim() ist aber halt nur rechts arbeitet.

SimProtect · 15. Dez 2017

Das ist tatsächlich unsere aktuelle Lösung.
Ich würde allerdings ungerne das bestehende Dokument verändert. Daher wäre es mir lieber, eine Lösung zu finden, die das Problem nicht hat.

Flown · 15. Dez 2017

Dann musst du deine Validierung ändern.

SimProtect · 15. Dez 2017

Das ist mir klar - deshalb hatte ich hier ja gefragt. Ich habe leider keine Idee, was ich noch anpassen könnte.
Hast Du vielleicht eine Idee oder einen Tipp für mich?
Vielleicht suche ich ja auch nur nach den falschen Stichworten.

Ich habe ansonsten noch versucht, stattdessen den DocumentBuilder zu verwenden und diesem das entsprechende Schema mitzugeben - allerdings führte das zum gleichen Effekt. Auch hier werden ein Zeilenumbruch und die nachfolgenden Whitespaces eingetragen.
Ohne jetzt groß reingeschaut zu haben, vermute ich mal, dass der sich auf den gleichen Validierungsmechanismus abstützt, den ich oben verwendet hatte.

fhoffmann · 16. Dez 2017

Ich nehme auch an, dass DOM die Methoden von SAX benutzt. Hier etwas umzustellen, bringt nichts.

Ich gehe davon aus, dass du die Einträge der xml-Datei in eine Datenbank eintragen willst. In der Datenbank ist es sicher sinnvoll, keine Einträge wie "Müller_" (der "_" soll hier für ein Leerzeichen stehen) zuzulassen. Wenn Dateien, die von fremden Firmen erstellt werden, dennoch solche Einträge enthalten, müssen sie an irgendeiner Stelle zwischen Einlesen der Datei und Speicherung in der Datenbank korrigiert werden. Es sollte deshalb nicht die Validierung korrigiert werden, sondern die Daten.

SimProtect hat gesagt.:
Ich würde allerdings ungerne das bestehende Dokument verändert. Daher wäre es mir lieber, eine Lösung zu finden, die das Problem nicht hat.

Das "bestehende Dokument" musst du ja nicht ändern - du kannst es unverändert im Netzwerk speichern - aber der Datenbankeintrag sollte den Konventionen entsprechen.

SimProtect · 19. Dez 2017

Danke für Deine Antworten.
Ich habe jetzt den übergebenen String selbst entsprechend bearbeitet. Schien mir zunächst vergleichsweise einfach zu sein, allerdings war auch zu beachten, dass auch dem Content zusätzliche Whitespaces hinzugefügt wurden.

Also aus

Code:

<SomeElement>
   <Description>
      Hier steht ein Eingabetext
   </Description>
</SomeElement>

wurde

Code:

<SomeElement>
___<Description>
______Hier steht ein Eingabetext
___</Description>
</SomeElement>

Einfach alle führenden Leerzeichen wegzuwerfen war leider nicht die Lösung, da es durchaus möglich ist, dass eine mittlere Zeile (vgl siehe unten) mit - vom Nutzer eingegebenen Leerzeichen beginnt, weil der Nutzer z.B. damit etwas formatieren wollte. Die kann ich ja nicht einfach wegwerfen.

Code:

<SomeElement>
   <Description>
      Reisedaten
      ___Abreise: 11.11.1111
      ___Rückreise: 11.11.1111
   </Description>
</SomeElement>

---
Ich frage mich: Gibt es eine Methoden zum Einlesen von XML-Dateien, die diese "NichtNutzerWhitespaces" nicht zusätzlich generiert bzw. wegwirft?
Ich möchte mich da einmal mit den zuständigen Entwicklern zusammensetzen, ob wir das Problem nicht bereits beim einlesen umgehen können.

Die oben genannten Fälle habe ich hiermit erschlagen können. Was immer noch so eine Sache ist: Was ist, wenn das ganze Dokument total wild formatiert ist. Deswegen bin ich dran, dass ich mit dem Entwicklerteam mal spreche, ob wir da keine andere Lösung generieren können.

Code:

______<SomeElement><Description>
      Hier steht ein Eingabetext
_</Description>
___</SomeElement>

truesoul · 19. Dez 2017

SimProtect hat gesagt.:
Was ist, wenn das ganze Dokument total wild formatiert ist. Deswegen bin ich dran, dass ich mit dem Entwicklerteam mal spreche, ob wir da keine andere Lösung generieren können.

Hallo.

Stellt das ein Problem dar bezüglich des Inhaltes oder der Tags?

Grüße

Flown · 19. Dez 2017

Vielleicht wäre es ja eine Möglichkeit die XML, bevor sie validiert werden, mittels XSLT zu trimmen.

	Titel	Forum	Antworten	Datum
R	Parsen einer XML ohne Validierung	XML & JSON	2	21. Aug 2007
B	XML Schema Validierung des Zahlenbereichs	XML & JSON	3	8. Jul 2014
C	xml validierung gegen xsd mit jdom: Fehlermeldung Cannot find the declaration of element ...	XML & JSON	8	16. Apr 2012
J	JSon <-> XML zwecks Validierung	XML & JSON	4	2. Apr 2012
B	Validierung nur beim einlesen oder auch beim schreiben?	XML & JSON	4	13. Sep 2011
S	Validierung mit JAXB2 ohne root-element	XML & JSON	10	15. Jul 2011
H	XML via XSD Validierung nicht möglich?	XML & JSON	2	9. Jun 2011
R	XML-Validierung mittels XSD unter Eclipse	XML & JSON	2	14. Okt 2010
D	jaxb validierung/verification vor marshalling	XML & JSON	3	14. Sep 2010
H	Schema-Validierung mit JDOM	XML & JSON	2	18. Nov 2009
C	Validierung klappt nicht mit Schema	XML & JSON	2	1. Apr 2009
S	XML Validierung mit XSD über DOM - Cannot find.	XML & JSON	4	21. Okt 2008
G	Validierung von XML-Dokumenten	XML & JSON	7	14. Mai 2008
G	Problem mit XML-Schema Validierung mit Java	XML & JSON	12	17. Okt 2007
	XSD Validierung mit JDK 1.3	XML & JSON	3	22. Mai 2007
	XML dom4j xsd- Eigenschaften/Validierung	XML & JSON	3	10. Mai 2007
N	XML Datei auslesen / Validierung	XML & JSON	4	12. Mrz 2007
J	schema-Validierung mit xerces und jdom: bug in java 1.4?	XML & JSON	9	8. Sep 2006
L	Eingabe einer mehrzeiligen JSON-Eingabe hängt.	XML & JSON	2	16. Jun 2025
W	Erzeugen einer openapi spec via swagger	XML & JSON	1	19. Sep 2022
W	Erzeugen einer Handlerklasse zum Abfangen von SOAP-Requests	XML & JSON	13	13. Aug 2021
D	Innerhalb einer Property auf eine andere verlinken?	XML & JSON	3	9. Jul 2019
J	Auslesen der Länge einer XML-Datei in Android Studio	XML & JSON	8	16. Mai 2018
M	Layout + Inhalt einer JTable speichern	XML & JSON	30	10. Okt 2016
J	Welche Gründe führen zu einer endlos tiefen XML?	XML & JSON	4	19. Jun 2015
T	Pfad in einer Variablen speichern	XML & JSON	1	21. Apr 2015
E	Wie kann ich ein XSD-Schema in einer JSP-Seite verwenden?	XML & JSON	7	6. Feb 2015
T	Visualisierung von XML Dateien in einer Java SwingGui	XML & JSON	11	5. Sep 2014
R	XSD in einer choice mehrmals das selbe element möglich	XML & JSON	5	2. Apr 2014
S	Xml File für den Aufbau einer anderen Xml Datei	XML & JSON	6	12. Feb 2014
C	XPath: Alle Kinder in einer Schleife auslesen	XML & JSON	2	3. Dez 2013
K	Beim Parsen einer XML-Datei Connection timed out	XML & JSON	4	13. Dez 2012
F	Parsen von Daten aus einer Homepage	XML & JSON	6	8. Nov 2012
B	XML aus einer URL im Internet lesen (JDOM)	XML & JSON	4	15. Jul 2012
D	Aus lesen einer XML-Datei ( 1 root, 3 childs)	XML & JSON	7	22. Sep 2011
B	SAX-Parser - Dokumente einlesen und in einer Map ablegen	XML & JSON	2	1. Jun 2011
B	2 Attribute in einer xsl	XML & JSON	2	31. Mrz 2011
T	Inhalt einer .xml Datei auf Javaoberfläche wiedergeben	XML & JSON	4	28. Feb 2011
T	Schreiben einer XML	XML & JSON	8	14. Dez 2010
B	XML auf Basis einer DTD erstellen	XML & JSON	2	14. Okt 2010
	Probleme beim Erstellen einer XML	XML & JSON	7	18. Aug 2010
O	Parsen einer XML mit JDOM ohne Doctype Declaration	XML & JSON	2	27. Jul 2010
T	XPath Problem: finden einer Node nach Attributswert	XML & JSON	2	30. Jun 2010
	Mehrere XSDs und mehrere Namensräume in einer XML unterbringen?	XML & JSON	2	7. Jun 2010
	Bestimmten Wert aus einer XML Auslesen	XML & JSON	34	21. Apr 2010
	Beim Erzeugen einer XML Datei auch die XML Struktur erzeugen?	XML & JSON	11	15. Apr 2010
J	xmlencoder Zustände einer Bean schreiben	XML & JSON	3	24. Nov 2009
N	value Wert einer XML Datei mit JAVA bearbeiten	XML & JSON	21	7. Aug 2009
S	Probleme beim erstellen einer Jar	XML & JSON	12	22. Okt 2008
J	Problem mit compile einer XSD	XML & JSON	3	16. Aug 2008
S	Einlesen einer xml Datei	XML & JSON	4	26. Apr 2008
F	hilfe bei einer aufgabe	XML & JSON	3	12. Feb 2008
D	Anzahl der Knoten in einer XML	XML & JSON	6	22. Okt 2007
D	XML Datei innerhalb einer JAR Datei parsen	XML & JSON	2	8. Aug 2007
M	Xerces -Parsen mit einer externen Schemadatei geht nicht	XML & JSON	2	27. Apr 2007
	Ergebnis einer XSLT-Tansformation als Rückgabewert erhalten	XML & JSON	4	7. Aug 2006
J	Fehler beim laden einer .xml	XML & JSON	3	12. Jul 2006
	Übungsaufgabe: Valide und gültige XML Datei zu einer DTD	XML & JSON	7	8. Jun 2006
A	Auslesen einer XML Datei	XML & JSON	58	26. Nov 2005
P	OutOfMemoryError beim Einlesen einer XML-Datei	XML & JSON	7	19. Sep 2005
P	Knoten-Attribute einer xsd-Datei in einem JTree auslesen	XML & JSON	18	18. Jul 2005
T	Einfach nur die Elemente einer XML Datei auslesen :(	XML & JSON	10	24. Feb 2005
Z	Erzeugung einer Referenz von Knoten in JTree auf DOMTree	XML & JSON	3	9. Feb 2005
A	Element an einer bestimmten Stelle einfügen (nicht am Ende)	XML & JSON	4	6. Jan 2005
W	JSON-Datei an bestimmter Stelle auslesen und in txt-File schreiben	XML & JSON	16	23. Jan 2025
T	Tags in XML Datei mit Java erstellen	XML & JSON	3	28. Nov 2021
S	XML Datei speichern nicht möglich	XML & JSON	13	19. Jul 2021
M	Objekt zu jsonArray in .json datei hinzufügen ?	XML & JSON	3	18. Dez 2020
J	Object in JSON Datei einlesen und als neues Object erzeugen (in ein Object Array)	XML & JSON	29	7. Okt 2020
I	Mit Hibernate eine XML-Datei in eine Tabellenspalte einlesen.	XML & JSON	1	17. Jul 2020
	Buch Metadaten aus XML Datei parsen	XML & JSON	48	25. Apr 2019
R	xlsx-Datei mit Apache POI einlesen	XML & JSON	18	3. Mai 2018
S	CSV Datei einlesen und XML Ausgeben	XML & JSON	2	5. Dez 2017
U	jar Datei mit ant erstellen	XML & JSON	1	22. Okt 2017
P	wie kriege ich eine .dtd Datei mit in die ausführbare .jar?	XML & JSON	2	11. Sep 2017
K	XML Datei erstellen und Daten daraus in Java auslesen	XML & JSON	6	25. Jul 2017
D	XML-Datei per Button erstellen	XML & JSON	3	20. Feb 2017
K	JAR-File mit XML-Datei	XML & JSON	1	9. Aug 2016
M	Text eines Elements in XML Datei mit JAVA bearbeiten und kompletten Element-Zweig hinzufügen	XML & JSON	16	3. Aug 2016
I	Liste in YAML Datei speichern und wieder auslesen	XML & JSON	1	28. Jul 2016
A	Leeres Array beim Auslesen von XML-Datei	XML & JSON	4	22. Jun 2016
E	JTreedaten in eine XML Datei speichern	XML & JSON	3	4. Dez 2015
D	Int-Werte in XML-Datei schreiben (DOM)	XML & JSON	2	28. Okt 2015
B	xsd-Datei ins jar file	XML & JSON	5	11. Jan 2015
T	Formulardaten in XML Datei speichern	XML & JSON	5	10. Nov 2014
H	Wsdl datei	XML & JSON	2	29. Sep 2014
D	Große XML-Datei in einzel Dateien splitten	XML & JSON	3	30. Jul 2014
S	Neue Inhalte in XML-Datei einfügen	XML & JSON	0	5. Apr 2014
S	JDOM XML Datei darstellen Fehler!	XML & JSON	2	17. Mrz 2014
M	XML-Datei mit JAXB und 2 Namespaces	XML & JSON	0	4. Feb 2014
J	XML - Datei wird nicht ganz angezeigt	XML & JSON	2	3. Feb 2014
P	(Eclipse)Ant Script, .jar Datei erstellen mit MANIFEST.MF	XML & JSON	12	20. Dez 2013
Z	XML Datei mit JDOM einlesen und verarbeiten	XML & JSON	6	18. Dez 2012
E	ResultSet als XML Datei speichern	XML & JSON	7	21. Sep 2012
M	XStream, CSV Datei	XML & JSON	9	1. Mai 2012
A	Frage zu bestehender XML Datei	XML & JSON	6	14. Apr 2012
A	Simple Constructor Injection Datei-Pfad	XML & JSON	6	17. Mrz 2012
K	Einlesen eines Parameters aus HTML-Datei	XML & JSON	4	6. Mrz 2012
	Lesen/Schreiben von XML Datei	XML & JSON	9	22. Feb 2012
A	XML datei lesbar speichern (eingerückt)	XML & JSON	7	28. Jan 2012

Validierung einer XML-Datei - Führende Leerzeichen und Tabs

SimProtect

Aktives Mitglied

fhoffmann

Top Contributor

SimProtect

Aktives Mitglied

krgewb

Top Contributor

SimProtect

Aktives Mitglied

Flown

Administrator

SimProtect

Aktives Mitglied

fhoffmann

Top Contributor

SimProtect

Aktives Mitglied

truesoul

Top Contributor

Flown

Administrator

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen