XML, UTF-8, JDOM und Umlaute

SpammerSlammer · 23. Aug 2009

Hallo,

ich nutze JDOM, um XML-Code in Dateien zu schreiben. Ich habe als Kodierung UTF-8 angegeben, weil mein Programm auch mit russischen, griechischen, koreanischen, chinesischen und japanischen Texten umgehen können muss. Leider werden deutsche Umlaute dann natürlich wie bei HTML umkodiert (z.B. ü in [noparse]&#252;[/noparse]). Einigen Forenbeiträgen habe ich entnommen, dass es keine Probleme gibt, wenn man den Zeichensatz auf ISO-8859-1 ändert, aber das kommt wegen der anderen Sprachen nicht in Frage.

Meine Frage lautet daher: Wenn UTF-8 doch eigentlich mehr als eine Million Zeichen darstellen kann und in die XML-Dateien selbst irgendwelche kyrillischen oder koreanischen Zeichen eingebaut werden können (d.h. ohne Umkodierung), warum müssen dann einfache deutsche Umlaute umkodiert werden? Ich meine, im Zeichensatz sind sie doch alle drin, genau so wie die kyrillischen oder koreanischen Zeichen?!

musiKk · 23. Aug 2009

Also ich kenne mich mit JDOM im Speziellen vielleicht nicht aus, aber schon

Leider werden deutsche Umlaute dann natürlich wie bei HTML umkodiert (z.B. ü in &#252.

kann ich nicht nachvollziehen. Deutsche Umlaute haben keine Sonderstellung im Vergleich zu anderen Zeichen.

Vielleicht kannst Du mal ein kleines Code-Beispiel bringen, in dem das Problem deutlich wird.

SpammerSlammer · 27. Aug 2009

Sorry wegen der späten Antwort!

OK, das Problem habe ich scheinbar nur, weil ich die Daten aus einer JEditorPane nehme, die mit HTML arbeitet...

Mein Problem: Wenn ich normale Umlaute oder auch fernöstliche Schriftzeichen in eine solche JEditorPane einfüge und dann wieder auslese (z.B. um sie in eine XML-Datei auszugeben), wie kann ich die HTML-kodierten Zeichen dann wieder in UTF-8 zurückkonvertieren?

Hier ein Minimalbeispiel:

Java:

import java.io.*;
import javax.swing.*;
import org.jdom.Document;
import org.jdom.Element;
import org.jdom.output.XMLOutputter;
import org.jdom.output.Format;

public class XmlBeispiel {
	
	public XmlBeispiel() {
		String umlaute = "Umlaute: ä, ö, ü, ß";
		
		JEditorPane editorPane = new JEditorPane();
		editorPane.setContentType("text/html");
		editorPane.setText(umlaute);
		String htmlString = editorPane.getText();
		String ohneHtml = htmlString.replaceAll("</?\\w++[^>]*+>", "");
		
		Element root = new Element("root");
		Document document = new Document(root);
		Element element = new Element("element");
		element.setText(ohneHtml);
		root.addContent(element);
		try {
			FileOutputStream outStream = new FileOutputStream("output.xml");
			XMLOutputter outToFile = new XMLOutputter();
			Format format = Format.getPrettyFormat();
			format.setEncoding("utf-8");
			outToFile.setFormat(format);
			outToFile.output(document, outStream);
			outStream.flush();
			outStream.close();
		} catch (IOException e) {
			System.out.println("Cannot save:" + e.getMessage());
		}
	}
	
	public static void main (String[] args) {
		new XmlBeispiel();
	}
}

In diesem Beispiel sind die Umlaute in der resultierenden Datei "output.xml" alle HTML-kodiert.

Ich kann mir doch nicht für jedes mögliche Zeichen auf dieser Welt eine regex bauen, um das wieder hinzubiegen?!

SpammerSlammer · 27. Aug 2009

Na gut, ich habe jetzt ein bisschen hin- und herprobiert und die Lösung selbst gefunden. War eine ziemlich fiese Angelegenheit - ein Wunder, dass ich das so schnell hingekriegt habe... Hier die Details der Lösung für alle Interessierten:

Bisher hatte ich die HTML-Datei mit einem regulären Ausdruck von den HTML-Tags befreit, ohne aber die Sonderzeichen entsprechend zurückzukonvertieren. Was auch schwierig wäre bei mehr als einer Million möglichen Zeichen... Das war also in Zeile 17:
[JAVA=17]String ohneHtml = htmlString.replaceAll("</?\\w++[^>]*+>", "");[/code]

Diese habe ich ausgetauscht gegen den Swing-HTML-Parser. Dieser wird meistens in Kombination mit einem FileReader verwendet, aber ich habe stattdessen einen StringReader eingebaut. Zeile 17 des vorherigen Posts muss also durch folgenden Code ersetzt werden, um alle HTML-Zeichen passend zurückzukonvertieren:

[JAVA=17]
HTMLEditorKit.ParserCallback callback = new HTMLEditorKit.ParserCallback () {
public void handleText(char[] data, int pos) {
ohneHtml = String.valueOf(data);
}
};
Reader reader = new StringReader(htmlString);
try {
new ParserDelegator().parse(reader, callback, false);
} catch (IOException ioe) {
System.out.println(ioe);
}
[/code]

Natürlich muss man die entsprechenden Importe einbauen und den String "ohneHtml" als Klassenvariable definieren.

Hier ist zwecks Copy & Paste noch mal der gesamte Code:

Java:

import java.io.*;
import javax.swing.*;
import org.jdom.Document;
import org.jdom.Element;
import org.jdom.output.XMLOutputter;
import org.jdom.output.Format;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.ParserDelegator;

public class XmlBeispiel {
	
	String ohneHtml;
	
	public XmlBeispiel() {
		String umlaute = "Umlaute: ä, ö, ü, ß";
		
		JEditorPane editorPane = new JEditorPane();
		editorPane.setContentType("text/html");
		editorPane.setText(umlaute);
		String htmlString = editorPane.getText();
		
		HTMLEditorKit.ParserCallback callback = new HTMLEditorKit.ParserCallback () {
		    public void handleText(char[] data, int pos) {
		        ohneHtml = String.valueOf(data);
		    }
		};
		Reader reader = new StringReader(htmlString);
		try {
			new ParserDelegator().parse(reader, callback, false);
		} catch (IOException ioe) {
			System.out.println(ioe);
		}
		
		Element root = new Element("root");
		Document document = new Document(root);
		Element element = new Element("element");
		element.setText(ohneHtml);
		root.addContent(element);
		try {
			FileOutputStream outStream = new FileOutputStream("output.xml");
			XMLOutputter outToFile = new XMLOutputter();
			Format format = Format.getPrettyFormat();
			format.setEncoding("utf-8");
			outToFile.setFormat(format);
			outToFile.output(document, outStream);
			outStream.flush();
			outStream.close();
		} catch (IOException e) {
			System.out.println("Cannot save:" + e.getMessage());
		}
	}
	
	public static void main (String[] args) {
		new XmlBeispiel();
	}
}

Ich habe es auch mit koreanischen Zeichen getestet. Läuft so weit gut.

	Titel	Forum	Antworten	Datum
B	JDom + Umlaute	XML & JSON	2	1. Jun 2004
P	JDOM oder SAX	XML & JSON	3	21. Feb 2018
	Grundsätzliches zu JDOM 2.x	XML & JSON	1	23. Okt 2016
W	Kindelemente mit JDOM eines bestimmten Attributes auslesen	XML & JSON	6	3. Mrz 2015
S	JDOM XML Datei darstellen Fehler!	XML & JSON	2	17. Mrz 2014
S	JDom XML ein Element hinzufügen.	XML & JSON	1	12. Mrz 2014
C	JDOM: Value ohne Unterelemente auslesen	XML & JSON	1	20. Dez 2013
Z	XML Datei mit JDOM einlesen und verarbeiten	XML & JSON	6	18. Dez 2012
J	JDOM XMLOutputter getPrettyFormat()	XML & JSON	3	20. Sep 2012
H	JDOM setAttribute Reihenfolge	XML & JSON	3	20. Jul 2012
B	XML aus einer URL im Internet lesen (JDOM)	XML & JSON	4	15. Jul 2012
F	Aus XML mit JDOM aus Elementattributen Werte rauslesen	XML & JSON	4	10. Jul 2012
R	sax, stax, jdom, jaxb? List von Objekten speichern und laden	XML & JSON	6	22. Mai 2012
C	xml validierung gegen xsd mit jdom: Fehlermeldung Cannot find the declaration of element ...	XML & JSON	8	16. Apr 2012
T	Dom, Jdom, Sax	XML & JSON	8	4. Apr 2012
	MalformedByteSequenceException und null JDOM Attribute	XML & JSON	5	25. Dez 2011
	JDOM schreibt nicht	XML & JSON	2	24. Dez 2011
A	XSl mit JDom auslesen	XML & JSON	1	12. Dez 2011
G	xml, jdom "Entität wurde referenziert aber nicht deklariert."	XML & JSON	4	5. Dez 2011
A	XSL und JDom	XML & JSON	3	24. Nov 2011
G	jdom-Klassen in Eclipse importieren	XML & JSON	2	11. Nov 2011
S	JDOM ohne XML Header erzeugen?	XML & JSON	2	20. Sep 2011
G	JDOM - aus Children-Liste ein Child direkt ansprechen ohne XPath?	XML & JSON	9	27. Mai 2011
S	JDOM nur Attribut Name	XML & JSON	2	11. Mai 2011
X	JDom für SOAP Dateien geeignet?	XML & JSON	3	27. Apr 2011
T	Xpath & JDOM Element Pfad ausgeben	XML & JSON	2	6. Apr 2011
M	XML Parsen JDOM NullPointerEcxeption	XML & JSON	7	18. Mrz 2011
S	jdom hasChildren()?	XML & JSON	1	21. Feb 2011
T	Frage zu getContent unter jdom	XML & JSON	6	9. Feb 2011
Z	Tutorial für JDOM (XSD-Shema)	XML & JSON	3	17. Nov 2010
D	jdom, xml, login-system	XML & JSON	4	4. Aug 2010
N	JDOM: XML einlesen	XML & JSON	4	31. Jul 2010
O	Parsen einer XML mit JDOM ohne Doctype Declaration	XML & JSON	2	27. Jul 2010
	jdom zu iso-8859-15 zwingen	XML & JSON	4	18. Jul 2010
P	jdom XML-Encoding auslesen	XML & JSON	12	6. Jul 2010
E	JDOM - letzem child Attribut hinzufügen	XML & JSON	4	30. Jan 2010
H	Schema-Validierung mit JDOM	XML & JSON	2	18. Nov 2009
	JDOM und entfernen von children	XML & JSON	4	3. Nov 2009
E	JDOM - Problem beim Zusammenfügen zweier Dateien	XML & JSON	2	15. Okt 2009
T	jdom.jar als Relativer Pfad in Eclipse einbinden	XML & JSON	4	2. Okt 2009
	JDom Element.getChild("Name") liefert null obwohl vorhanden	XML & JSON	4	1. Okt 2009
E	XML - JDOM - Bäume: was würdet ihr hier machen?	XML & JSON	11	14. Aug 2009
A	JDOM: Wert schreiben bzw. ändern	XML & JSON	6	24. Mai 2009
T	JDOM Bibiliothek	XML & JSON	3	14. Dez 2008
K	JDOM vs. DOM, Schnittstellen	XML & JSON	5	18. Nov 2008
P	Große XML Datei mittels JDOM bearbeiten / einlesen	XML & JSON	6	6. Okt 2008
	jdom mit xml.transform inkompatibel, was soll ich nehmen?	XML & JSON	2	29. Sep 2008
T	EXSD auslesen mit XPath und JDOM	XML & JSON	8	17. Sep 2008
A	JDOM und Sonderzeichen < >	XML & JSON	17	1. Aug 2008
G	Simples XML File einlesen mit JDom. Prefix not bound ?	XML & JSON	2	10. Jul 2008
N	jdom problem beim lesen von child elementen	XML & JSON	5	12. Jun 2008
N	problem bei xml lesen mit jdom	XML & JSON	2	12. Jun 2008
S	Ampersand im Jdom-Element	XML & JSON	2	21. Mai 2008
N	jdom - xslt-Verweis in .xml einfügen	XML & JSON	3	20. Mai 2008
S	Jdom+java webstart	XML & JSON	4	15. Mai 2008
K	html -> cyberneko -> xml -> jdom .	XML & JSON	3	8. Mai 2008
I	JDom Text ändern	XML & JSON	4	22. Apr 2008
C	jdom.Element nicht vorhanden?	XML & JSON	4	14. Apr 2008
W	JDOM element ändern funzt nich :( [problem gelöst]	XML & JSON	3	13. Mrz 2008
C	XPath in JDOM klappt nicht	XML & JSON	2	12. Mrz 2008
S	Harte Nuss mit XML und JDOM	XML & JSON	2	3. Mrz 2008
H	mit JDOM Verarbeitungsanweisungen und Kommentare auslesen	XML & JSON	2	16. Jan 2008
B	jdom: getChildren() problem	XML & JSON	4	26. Sep 2007
T	Bild in XML per JDOM	XML & JSON	4	22. Aug 2007
D	JDOM erzeugt leere xmlns Attribute	XML & JSON	4	21. Aug 2007
T	Elemente zählen mit JDOM in XML	XML & JSON	7	16. Aug 2007
B	jdom document aus string erzeugen?	XML & JSON	1	1. Jun 2007
M	JDOM und XPath, zu Element zugehörigen XPath-Ausdruck	XML & JSON	5	30. Mai 2007
F	JDOM und XPath - Problem mit Namespace ohne Prefix	XML & JSON	5	25. Mai 2007
T	XML mit JDOM auslesen => langsam?	XML & JSON	7	24. Apr 2007
B	jdom outputter ohne attribute	XML & JSON	2	16. Apr 2007
C	XML encoding UTF-8 und JDOM	XML & JSON	4	28. Mrz 2007
P	Probleme mit JDom . addContent(int index,Collection c)	XML & JSON	2	19. Mrz 2007
R	key aus xml lesen mittels jdom	XML & JSON	5	14. Feb 2007
M	JDOM Element ohne Inhalt kopieren ?	XML & JSON	3	12. Feb 2007
X	JDOM SAXBuilder Validationschema - Problem	XML & JSON	8	21. Dez 2006
G	einzelne tags mit jdom auslesen	XML & JSON	4	16. Dez 2006
F	XML ( ca. 280 MB) JDom & SAXBuilder lesen = OutOfMemoryE	XML & JSON	4	14. Dez 2006
K	JDOM SAXBuilder einlesen	XML & JSON	6	6. Dez 2006
S	Ausgabe "asXML" mit Jdom	XML & JSON	2	29. Nov 2006
B	Element an bestimmter Stelle einfügen (JDOM)	XML & JSON	8	21. Nov 2006
G	XML mit JDOM ausgeben [Klappe die 1Mio.ste]	XML & JSON	2	17. Nov 2006
F	XML mit JDOM auslesen	XML & JSON	2	16. Nov 2006
D	JDOM auf den PC machen	XML & JSON	6	26. Okt 2006
J	JDOM Unicode	XML & JSON	2	23. Okt 2006
J	schema-Validierung mit xerces und jdom: bug in java 1.4?	XML & JSON	9	8. Sep 2006
P	JDOM Werte verändern	XML & JSON	4	30. Aug 2006
S	OutOfMemory mit JDOM	XML & JSON	6	30. Aug 2006
S	org.jdom.document in String umwandeln.	XML & JSON	2	27. Jul 2006
M	ISO-8859-1 >> UTF-8 + JDOM + Verwirrung.	XML & JSON	2	11. Jul 2006
J	[Newbie] [JDOM] Element aus XML entfernen klappt nicht	XML & JSON	4	14. Jun 2006
J	JDOM mit XML-Schema	XML & JSON	8	27. Apr 2006
P	HTML-Sting in JDOM	XML & JSON	7	22. Apr 2006
B	JDOM && ObjectOutputStream	XML & JSON	8	8. Apr 2006
B	Versionskonflikt bei JDOM	XML & JSON	9	28. Mrz 2006
B	JDom -- getChild() liefert nicht nachvollziehbar null	XML & JSON	2	31. Jan 2006
M	JDOM parse Exception	XML & JSON	3	24. Jan 2006
G	JDom encoding ändern	XML & JSON	2	10. Jan 2006
R	JDOM Root-Element entfernen aber Rest behalten	XML & JSON	10	8. Jan 2006
M	XML Elemente mit JDOM durch Text ersetzen	XML & JSON	2	21. Dez 2005

XML, UTF-8, JDOM und Umlaute

SpammerSlammer

Mitglied

musiKk

Top Contributor

SpammerSlammer

Mitglied

SpammerSlammer

Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen