Hallo,
ich nutze JDOM, um XML-Code in Dateien zu schreiben. Ich habe als Kodierung UTF-8 angegeben, weil mein Programm auch mit russischen, griechischen, koreanischen, chinesischen und japanischen Texten umgehen können muss. Leider werden deutsche Umlaute dann natürlich wie bei HTML umkodiert (z.B. ü in [noparse]ü[/noparse]). Einigen Forenbeiträgen habe ich entnommen, dass es keine Probleme gibt, wenn man den Zeichensatz auf ISO-8859-1 ändert, aber das kommt wegen der anderen Sprachen nicht in Frage.
Meine Frage lautet daher: Wenn UTF-8 doch eigentlich mehr als eine Million Zeichen darstellen kann und in die XML-Dateien selbst irgendwelche kyrillischen oder koreanischen Zeichen eingebaut werden können (d.h. ohne Umkodierung), warum müssen dann einfache deutsche Umlaute umkodiert werden? Ich meine, im Zeichensatz sind sie doch alle drin, genau so wie die kyrillischen oder koreanischen Zeichen?!
ich nutze JDOM, um XML-Code in Dateien zu schreiben. Ich habe als Kodierung UTF-8 angegeben, weil mein Programm auch mit russischen, griechischen, koreanischen, chinesischen und japanischen Texten umgehen können muss. Leider werden deutsche Umlaute dann natürlich wie bei HTML umkodiert (z.B. ü in [noparse]ü[/noparse]). Einigen Forenbeiträgen habe ich entnommen, dass es keine Probleme gibt, wenn man den Zeichensatz auf ISO-8859-1 ändert, aber das kommt wegen der anderen Sprachen nicht in Frage.
Meine Frage lautet daher: Wenn UTF-8 doch eigentlich mehr als eine Million Zeichen darstellen kann und in die XML-Dateien selbst irgendwelche kyrillischen oder koreanischen Zeichen eingebaut werden können (d.h. ohne Umkodierung), warum müssen dann einfache deutsche Umlaute umkodiert werden? Ich meine, im Zeichensatz sind sie doch alle drin, genau so wie die kyrillischen oder koreanischen Zeichen?!