replace und die Umlaute

kodela · 8. Feb 2010

Hallo zusammen,

ich habe mir eine simple Anwendung geschrieben, mit der ich grundsätzlich in beliebigen, speziell jedoch in html-Dateien, welche in einem Ordner einschließlich Unterordner liegen, beliebige Textteile ersetzen kann. Bisher habe ich diese Anwendung vor allem dafür verwendet, Pfadbezeichnungen zu verändern. Jetzt wollte ich sie auch dafür verwenden, nicht konvertierte deutsche Umlaute in das UTF-8 Format umzuwandeln. Für den Test habe ich mir eine kurze HTML-Datei geschrieben, in der alle deutschen Sonderzeichen vertreten sind.

Hier ist dann der Teil, in welchem die Ersetzungen über die replace()-Methode vorgenommen werden soll. Nur zum Verständnis: In liste[] sind alle gefundenen HTML-Dateien, die nach der Ersetzung wieder abgespeichert werden.

Java:

      BufferedReader reader;

      try {
          reader = new BufferedReader(new FileReader(liste[i]));
          ArrayList<String> values = new ArrayList<String>();

          String zeile = reader.readLine();                   // erste Zeile einlesen
          while (zeile != null) {                             // solange erfolgreich
              zeile = zeile.replace(suchText, ersatzText);    // korrigieren
              values.add((zeile + "\n").toString());          // Zeile in Liste
              zeile = reader.readLine();                      // nächste Zeile einlesen
       }
       reader.close();

Nun passiert bei mir etwas sehr eigenartiges: In den eingelesenen Zeilen sind die Sonderzeichen als Literale dargestellt und zwar für jedes Sonderzeichen der selbe Code, nämlich '\ufffd'. Dieser entspricht keinem mir bekannten UTF-8 Code und wird von replace() durch das kleine 'ö' ersetzt.

Kann mir jemand erklären, woran das liegt, welchen Fehler ich hier mache.

Im voraus schon einmal einen schönen Dank für jeden Hinweis.

Mit freundlichem Gruß,

Konrad

tuxedo · 8. Feb 2010

Was hälst du davon die Datei mit einem entsprechenden Charset zu lesen und mit UTF-8 Charset wieder zu schreiben?

Das sollten nicht mehr als 10 Zeilen Code sein und erspart die den Ersetzungsaufwand.

- Alex

kodela · 8. Feb 2010

Hallo Alex,

ehrlich gesagt, ich beschäftige mich erst seit rund drei Wochen intensiver mit Java und habe mit Charsets bisher noch keinerlei Erfahrung. Nur, es geht in meiner Anwendung grundsätzlich ja nicht um das Ersetzten von Sonderzeichen, sondern mehr um die Ersetzung von Adressen oder ähnlichen Textteilen. Dafür ist wohl Charset nicht so besonders geeignet. Das mit den Sonderzeichen ist eigentlich nur ein Nebeneffekt. Trotzdem Danke für Deinen Hinweis, werde mich also auch mit den Charsets vertraut machen.

Mit freundlichem Gruß,

Konrad

kodela · 9. Feb 2010

Hallo Forumsfreunde,

mittlerweile steht fest, dass es nicht wie ursprünglich angenommen ein Problem mit replace() ist. Es liegt einwandfrei an readLine(), mit der ich Zeile für Zeile einlese. Der von readLine() übergebene String entspricht nicht der einzulesenden Zeile. Alle Sonderzeichen werden einheitlich durch "\ufffd" ersetzt.

Wer hat eine Ahnung, woran das liegen kann.

Mit freundlichem Gruß,

Konrad

kodela · 9. Feb 2010

Hallo Forumsfreunde,

mittlerweile steht fest, dass es nicht wie ursprünglich angenommen ein Problem mit replace() ist. Es liegt einwandfrei an readLine(), mit der ich Zeile für Zeile einlese. Der von readLine() übergebene String entspricht nicht der einzulesenden Zeile. Alle Sonderzeichen werden einheitlich durch "\ufffd" ersetzt.

Wer hat eine Ahnung, woran das liegen Kann.

Mit freundlichem Gruß,

Konrad

tuxedo · 10. Feb 2010

Hab ich eben gefunden:

http://1001javatips.com/FileReaderclass.htm hat gesagt.:
You cannot correctly read the contents of non-UTF-16 files with FileReader. That's because you cannot change Java's Unicode's UTF-16 default character encoding using FileReader's constructors. These constructors do not have a provision for specifying the CharSet of the input file. To specify another CharSet yourself, so that you can correctly read the characters of a non-UTF-16 file, chain an InputStreamReader which specifies the necessary CharSet to a FileInputStream. See InputStreamReader class for an example.

Gast2 · 10. Feb 2010

Ich verstehe noch nicht ganz das Problem. Wie sieht jetzt die HTML datei aus?

Steht da jetzt z.B. ö drin oder \u00f6 oder ö?
Ich gehe jetzt mal von "ö" steht im text aus:

Java:

FileInputStream fis = new FileInputStream("meinfile.txt");
InputStreamReader isr = new InputStreamReader(fis, "ISO-8859-1");
StringBuilder buffer = new StringBuilder();
int c;
while ((c = isr.read()) != -1) {
    buffer.append((char) c);
}
String str = buffer.toString();
str = str.replace("ö", "\u00f6 oder \\u00f6 oder &ouml; oder ...");

Wenn du das noch Zeilenweise haben willst könntest du bei \n oder \r\n splitten

Java:

String[] lines = str.split("\n");

kodela · 10. Feb 2010

Hallo Alex,

herzlichen Dank für den Hinweis. Ich frage mich nur, warum ich in der deutschsprachigen Literatur keinen Hinweis darauf gefunden habe, dass readLine() nur sehr eingeschränkt verwendbar ist.

Mit freundlichem Gruß,

Konrad

tuxedo · 10. Feb 2010

Java ist halt nicht deutschsprachig

Und ein Blick über den Tellerrand mittels Suchmaschine deiner Wahl schadet nie

Gast2 · 10. Feb 2010

Ah, jetzt verstehe ich es ... es ging nur um das readLine()

kodela · 10. Feb 2010

Hallo fassy,

die einzulesende Datei kann von jedem beliebigen Typ sein, sie muss nur auch einen Text enthalten, der mit readLine() gelesen werden soll. Das sind nur bei mir überwiegend HTML-Dateien, aber bei TXT-Dateien haben wir das selbe Problem.

Du könntest jetzt natürlich fragen, warum ich die Dateien mit readLine() einlese und nicht, wie Du es vorschlägst, mit read(). Ganz einfach, weil es readLine() gibt und ich die Daten eben zeilenweise behandeln wollte. Dass dies in der Mehrzahl aller Fälle nicht möglich ist, habe ich weder in der offiziellen Java-Dokumentation zu readLine() noch in einer der wichtigsten deutschsprachigen Publikationen entdecken können.

Ich muss allerdings zugeben, dass in der Dokumentaion zur Klasse FileReader darauf hingewiesen wird.

Ich danke Dir jedenfalls für den Vorschlag, wie man das Problem mir dem FileReader umgehen kann.

Mit freundlichem Gruß,

Konrad

	Titel	Forum	Antworten	Datum
P	String.replace() funktioniert nicht?	Allgemeine Java-Themen	3	18. Okt 2021
	Replace x Zeichen aus String	Allgemeine Java-Themen	2	11. Feb 2019
	Warum läst mein replace die Klammern drin?	Allgemeine Java-Themen	10	12. Mrz 2017
B	Input/Output BufferedWriter/Reader replace line	Allgemeine Java-Themen	6	29. Jan 2016
	Methoden replace alle Buchstaben	Allgemeine Java-Themen	3	20. Okt 2015
K	String.replace funktioniert nicht	Allgemeine Java-Themen	3	23. Aug 2012
	Find and replace Text docx	Allgemeine Java-Themen	6	30. Mrz 2012
P	ganze Zeilen in einem File mit .replace() ändern.	Allgemeine Java-Themen	10	18. Mrz 2012
F	Replace von Leerzeichen	Allgemeine Java-Themen	8	8. Mrz 2012
M	Replace Problem	Allgemeine Java-Themen	10	25. Jan 2012
L	String Replace mit Regulärem Ausdruck	Allgemeine Java-Themen	2	29. Apr 2011
E	String replace java 1.4	Allgemeine Java-Themen	4	15. Jan 2010
D	Abstruse Probleme mit eigenem replace Algorithmus	Allgemeine Java-Themen	11	8. Apr 2009
G	Mehrmals replace() auf langem String, zu speicherintensiv	Allgemeine Java-Themen	10	5. Sep 2008
E	String.replace für (sehr) großen Text	Allgemeine Java-Themen	9	30. Sep 2007
S	Zeichen umwandeln in ü per .replace();	Allgemeine Java-Themen	6	30. Mrz 2006
G	spezielles replace	Allgemeine Java-Themen	3	19. Mrz 2006
C	Problem mit String.replace(CharSequence, CharSequence)	Allgemeine Java-Themen	3	16. Sep 2005
B	Ersatz für "replace"	Allgemeine Java-Themen	4	8. Mai 2005
C	String replace	Allgemeine Java-Themen	8	1. Apr 2004
N	iText keine Sonderzeichen und Umlaute unter Windows	Allgemeine Java-Themen	13	12. Mrz 2021
O	Leerzeichen und Umlaute im Pfad einer Java Applikation machen Probleme	Allgemeine Java-Themen	13	10. Nov 2020
L	Tess4j Umlaute anzeigen	Allgemeine Java-Themen	3	8. Jun 2019
T	Umlaute in Eclipse einlesen funktioniert nicht	Allgemeine Java-Themen	16	29. Dez 2018
T	Input/Output Konsole gibt trotz printf keine Umlaute aus	Allgemeine Java-Themen	17	9. Okt 2016
T	Umlaute werden falsch gedruckt	Allgemeine Java-Themen	2	9. Mai 2015
F	CaesarVerschlüsselung Umlaute	Allgemeine Java-Themen	7	26. Jan 2015
F	Windows Umlaute	Allgemeine Java-Themen	15	24. Nov 2014
	Umlaute beim Einlesen von Dateinamen	Allgemeine Java-Themen	12	9. Sep 2013
C	Regex (Case insensitive und Umlaute)	Allgemeine Java-Themen	4	29. Apr 2012
B	Zip umlaute	Allgemeine Java-Themen	8	12. Jan 2012
S	jar-Datei stellt Umlaute nicht dar	Allgemeine Java-Themen	6	24. Nov 2011
K	Javamail:Probleme mit der Darstellung von Umlaute in Subject	Allgemeine Java-Themen	15	13. Okt 2011
S	Umlaute machen probleme	Allgemeine Java-Themen	3	9. Jan 2011
E	HTML File mit Umlaute einlesen	Allgemeine Java-Themen	8	3. Sep 2010
R	Base64_decode Umlaute Problem.	Allgemeine Java-Themen	8	19. Apr 2010
J	Umlaute bei Commons-Fileupload	Allgemeine Java-Themen	3	19. Apr 2010
T	Wie konvertiere ich Umlaute (ä -> ae) ?	Allgemeine Java-Themen	7	25. Mrz 2010
J	Umlaute in regulären Ausdrücken	Allgemeine Java-Themen	3	8. Mrz 2010
D	zeichenerkennung für umlaute bei eingabe	Allgemeine Java-Themen	4	4. Dez 2009
S	Mac OS JRE verhunst Umlaute	Allgemeine Java-Themen	6	28. Aug 2009
G	Datei einlesen: Umlaute sind Fragezeichen	Allgemeine Java-Themen	23	7. Aug 2009
	Umlaute in id3 Tags	Allgemeine Java-Themen	2	15. Feb 2009
F	Umlaute: E-Mail per JavaMail und Textfile	Allgemeine Java-Themen	5	22. Nov 2008
J	JAR und Umlaute	Allgemeine Java-Themen	4	29. Jun 2008
B	Umlaute über Konsoloe ein- und ausgeben	Allgemeine Java-Themen	5	12. Mrz 2008
G	Windows Shell Umlaute Problem	Allgemeine Java-Themen	19	8. Mrz 2008
W	Umlaute umwandeln bekomme nur Leerzeichen raus.	Allgemeine Java-Themen	11	14. Aug 2007
E	Umlaute: FileWriter vs. FileOutputStream	Allgemeine Java-Themen	3	1. Aug 2007
W	Umlaute in Dateien und Verzeichnissen. Bekomme Fehler	Allgemeine Java-Themen	5	6. Aug 2006
M	Umlaute richtig dastellen?	Allgemeine Java-Themen	4	10. Apr 2006
X	Umlaute im JAR-File	Allgemeine Java-Themen	4	12. Dez 2005
B	Umlaute-Problem bei Plattform-Wechsel	Allgemeine Java-Themen	9	2. Dez 2005
C	Umlaute mysql	Allgemeine Java-Themen	3	5. Okt 2005
F	Umlaute in Text .	Allgemeine Java-Themen	7	29. Jun 2005
V	Umlaute, sonderzeichen beim HTMLEditiorKit	Allgemeine Java-Themen	2	4. Apr 2005
O	Probleme mit Umlaute	Allgemeine Java-Themen	12	29. Mrz 2005
B	html umlaute decoden	Allgemeine Java-Themen	4	16. Nov 2004

replace und die Umlaute

kodela

Bekanntes Mitglied

tuxedo

Gast

kodela

Bekanntes Mitglied

kodela

Bekanntes Mitglied

kodela

Bekanntes Mitglied

tuxedo

Gast

Gast2

Gast

kodela

Bekanntes Mitglied

tuxedo

Gast

Gast2

Gast

kodela

Bekanntes Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen