Byte Order Mark (BOM) bei readLine() ignorieren

kodela · 27. Jan 2018

Hallo,

eine Textdatei mit Str8ts-Aufgaben soll mit readLine() zeilenweise eingelesen und ausgewertet werden. In jeder Zeile ist eine Aufgabe und jede Aufgabe hat genau 162 Zeichen. Das funktioniert alles einwandfrei, ausgenommen die erste Zeile. Sie macht Probleme wenn die Textdatei in UTF kodiert ist. Bei UTF-8 wird beispielsweise die Byte-Sequenz EF BB BF vorangestellt.

Wenn nun mit if (zeile.length() == 162) geprüft wird, ob es sich hinsichtlich der Länge um eine Str8ts-Aufgabe handelt, dann fällt natürlich die erste Zeile unter den Tisch, wenn die Datei UTF kodiert ist. Sie hat ja 165 anstatt 162 Zeichen, was dem Ersteller der Datei nicht unbedingt bekannt sein muss.

Man könnte natürlich die erste Zeile anders behandeln als den Rest der Datei. Das Problem ist nur, dass die Byte-Sequenz nicht immer gleich ist. Nicht einmal die Länge ist immer gleich.

Gibt es eine Möglichkeit, dieses Problem mit der BOM elegant zu umgehen?

MfG, kodela

Robat · 27. Jan 2018

Wenn es dir nichts ausmacht auf Libs zu setzen, dann könntest du dir mal die BOMInputStream Klasse der Apache Commons io Lib anschauen.
Ansonsten bleibt dir wohl nur übrig manuell auf das BOM zu prüfen und es zu entfernen.

Meniskusschaden · 27. Jan 2018

kodela hat gesagt.:
Gibt es eine Möglichkeit, dieses Problem mit der BOM elegant zu umgehen?

Wie liest du die Dateien denn ein? Vermutlich genügt es, dabei den richtigen Zeichensatz anzugeben.

Meniskusschaden · 27. Jan 2018

Man muß das BOM bei UTF8 ggf. wohl tatsächlich selbst entfernen (siehe hier). Oder eben Bibliotheken nutzen, wie @Robat es vorgeschlagen hat.

Wurstkopp · 27. Jan 2018

Einfacher Workaround wäre es die letzten 162 zeichen zu lesen (ggf. nur in der ersten Zeile):

Code:

line.substring(line.length() - 162);

Prüfung ob die Zeile >= 162 Zeichen sollte dann noch dazu

kodela · 28. Jan 2018

Danke allen!

Ich habe nun folgende Lösung gefunden:

Java:

    try (BufferedReader br = new BufferedReader(new FileReader(pfad))) {
        zeile = br.readLine();
        // eventuelles BOM für UTF-8 Kodierung ignorieren               
        if (zeile.startsWith("\uFEFF")) {
            zeile = zeile.substring(1);
        }
        do {
            if (zeile.length() == 162) {
                addStr8ts(zeile);
            }
            zeile = br.readLine();
        } while (zeile != null);
        br.close();
    }

	Titel	Forum	Antworten	Datum
	Effizienter byte-Zugriff auf ein long[]-Array	Allgemeine Java-Themen	8	26. Jul 2023
	Größe eines Objektes in Byte berechnen	Allgemeine Java-Themen	2	19. Nov 2022
M	Optimierung einer Methode (byte-Geraffel)	Allgemeine Java-Themen	2	5. Aug 2022
	Aus einem byte Array Steuerungszeichen und Code bekommen und ersetzen	Allgemeine Java-Themen	3	13. Feb 2021
	unsigned byte	Allgemeine Java-Themen	18	1. Dez 2020
N	Byte Array in Java "dekomprimieren"	Allgemeine Java-Themen	3	20. Jun 2020
	Datentypen byte als unsigned interpretieren	Allgemeine Java-Themen	23	4. Jun 2020
W	String -> byte[] -> String - Sieht jemand was ich nicht sehe?	Allgemeine Java-Themen	10	17. Mai 2020
	2D-Grafik GIF Library mit byte output	Allgemeine Java-Themen	10	6. Jan 2019
K	Data Konverter - Probleme mit Byte[] Kodierung	Allgemeine Java-Themen	3	5. Nov 2018
A	Byte zu String	Allgemeine Java-Themen	4	5. Nov 2017
	Datentypen Unsignierter Byte zum signierten Byte	Allgemeine Java-Themen	2	19. Mrz 2016
X	Datentypen Byte geht nicht höher als 126 auch nicht mit casten?	Allgemeine Java-Themen	22	13. Feb 2016
R	Byte Array Zeichensuche	Allgemeine Java-Themen	6	28. Jul 2014
M	Null byte in verschiedenen charsets	Allgemeine Java-Themen	2	4. Jul 2014
S	Byte Array welches in Laufzeit aufgelöst wird // Objekt Array	Allgemeine Java-Themen	3	7. Jun 2014
O	Byte-Array zu String	Allgemeine Java-Themen	7	24. Mai 2014
D	Decodierung von Mp3-byte[]	Allgemeine Java-Themen	4	23. Sep 2013
A	ByteBuffer.get(byte[] dst,int offset,int length)	Allgemeine Java-Themen	2	6. Feb 2013
A	RandomAccessFile.read(byte[] b)	Allgemeine Java-Themen	9	1. Feb 2013
P	Datentypen Warum überhaupt Byte ?	Allgemeine Java-Themen	12	1. Jan 2013
P	Datentypen String-Daten zu Byte-Zahlen konvertieren - Komme nicht weiter nach vielem versuchen :-/	Allgemeine Java-Themen	7	31. Dez 2012
E	Byte zu String & umgekehrt	Allgemeine Java-Themen	3	26. Okt 2012
B	BufferedWriter in InputStream oder Zeichen-Stream in Byte-Stream	Allgemeine Java-Themen	5	9. Okt 2012
M	Chart per byte[] in JSP anzeigen	Allgemeine Java-Themen	4	10. Jul 2012
E	int in byte	Allgemeine Java-Themen	6	3. Jul 2012
R	ArrayList byte[] abspeichern	Allgemeine Java-Themen	4	8. Feb 2012
S	byte [] in string und zurück konvertieren	Allgemeine Java-Themen	2	28. Dez 2011
G	byte ? :	Allgemeine Java-Themen	7	27. Dez 2011
E	Byte-Array to String: Zeichenkaputt	Allgemeine Java-Themen	11	19. Dez 2011
R	In einem Byte-Array nach einer gewissen Zahlenfolge suchen	Allgemeine Java-Themen	7	15. Dez 2011
	Speicherbelegung byte, short, int	Allgemeine Java-Themen	8	18. Nov 2011
J	byte - hex - byte.. casten	Allgemeine Java-Themen	8	20. Jul 2011
R	byte[] to String Konvertieren	Allgemeine Java-Themen	14	6. Jul 2011
A	Input/Output Buffered Image zu Byte Array und zurück konvertieren	Allgemeine Java-Themen	4	5. Jun 2011
M	byte array splitten	Allgemeine Java-Themen	3	9. Feb 2011
J	Hex-String zu byte transformieren	Allgemeine Java-Themen	7	8. Dez 2010
T	Zu doof für byte-Umrechnung ...	Allgemeine Java-Themen	3	4. Okt 2010
W	CRC32 aus byte array	Allgemeine Java-Themen	5	10. Sep 2010
F	byte[] aus einem BufferedImage	Allgemeine Java-Themen	3	12. Apr 2010
L	byte -> byte[1] -> byte	Allgemeine Java-Themen	2	9. Apr 2010
P	Einzelne Bits in einem Byte-Array setzen	Allgemeine Java-Themen	2	31. Mrz 2010
	Synchronisieren: boolean,byte,char ?	Allgemeine Java-Themen	2	24. Feb 2010
S	Überprüfung/Parsen eines Byte-Arrays	Allgemeine Java-Themen	9	20. Jan 2010
	Byte-Manipulation eines Bildes	Allgemeine Java-Themen	7	15. Jan 2010
	For-Schleifen - byte statt int?	Allgemeine Java-Themen	11	27. Okt 2009
C	int zu byte cast - verständnis	Allgemeine Java-Themen	3	15. Jul 2009
R	int to byte[] Array	Allgemeine Java-Themen	4	9. Jun 2009
	byte[] Array to Integer	Allgemeine Java-Themen	4	8. Jun 2009
	Byte to Int convertieren	Allgemeine Java-Themen	2	11. Mai 2009
R	Double Werte aus byte[] auslesen	Allgemeine Java-Themen	5	12. Mrz 2009
W	Verwendung von byte	Allgemeine Java-Themen	9	7. Mrz 2009
G	zu lange Byte code dateien	Allgemeine Java-Themen	6	3. Jan 2009
G	String in byte- Array	Allgemeine Java-Themen	3	4. Nov 2008
E	Byte [] nach hex, dann nach dec	Allgemeine Java-Themen	2	24. Okt 2008
A	Performance: byte[] in byte[][][] konvertieren	Allgemeine Java-Themen	2	22. Okt 2008
G	2 x byte zusammenkopieren	Allgemeine Java-Themen	7	14. Okt 2008
G	byte nach int	Allgemeine Java-Themen	3	14. Okt 2008
	Object to byte[] ohne Serializable	Allgemeine Java-Themen	6	2. Okt 2008
	Die Größe eines Strings in Byte berechnen?	Allgemeine Java-Themen	12	23. Sep 2008
G	Byte- List mit einem Iterator durchlaufen	Allgemeine Java-Themen	5	14. Aug 2008
W	Konflikt byte->int, in.read->arraycopy	Allgemeine Java-Themen	7	29. Mai 2008
T	"unsigned" byte[] -> BigInteger	Allgemeine Java-Themen	2	25. Apr 2008
F	byte in hex-String oder: Wer hat in Mathe aufgepasst	Allgemeine Java-Themen	3	14. Feb 2008
T	Socket Server Anwendung - Empfang eines Byte-Arrays	Allgemeine Java-Themen	7	8. Feb 2008
J	NumberFormatException bei String->byte[]	Allgemeine Java-Themen	12	6. Feb 2008
	Blob aus byte Array erstellen?	Allgemeine Java-Themen	3	25. Jan 2008
T	Object -> byte[]	Allgemeine Java-Themen	5	15. Jan 2008
G	Byte[] zeichenweise lesen	Allgemeine Java-Themen	4	5. Dez 2007
G	byte[] mit Strings füllen	Allgemeine Java-Themen	2	8. Okt 2007
B	int -> byte	Allgemeine Java-Themen	2	4. Sep 2007
G	file --> byte[]	Allgemeine Java-Themen	7	13. Aug 2007
E	Problem beim Dateien kodieren ("Byte = Byte +1")	Allgemeine Java-Themen	3	31. Jul 2007
I	String -> byte[] -> String	Allgemeine Java-Themen	2	29. Jul 2007
D	byte nach integer?	Allgemeine Java-Themen	4	27. Jul 2007
	int in byte	Allgemeine Java-Themen	18	16. Jul 2007
G	Maximalgröße von byte[] buffer	Allgemeine Java-Themen	7	28. Jun 2007
E	String -> byte[]	Allgemeine Java-Themen	6	21. Jun 2007
C	Byte[] to String	Allgemeine Java-Themen	7	19. Jun 2007
D	datei in byte[]-array schreiben	Allgemeine Java-Themen	6	15. Jun 2007
D	byte[] problem	Allgemeine Java-Themen	3	15. Jun 2007
	ArrayList in ein byte- Array	Allgemeine Java-Themen	7	21. Mai 2007
B	ein spezielles Byte-Array sortieren	Allgemeine Java-Themen	11	16. Mai 2007
T	OutputStream - Event bei Byte-Fluss	Allgemeine Java-Themen	5	23. Mrz 2007
J	byte-Array in Hashmap speichern?	Allgemeine Java-Themen	3	19. Mrz 2007
S	Problem beim Einlesen von byte-werten aus datei	Allgemeine Java-Themen	2	8. Mrz 2007
J	byte-Array als String übers http schicken	Allgemeine Java-Themen	8	2. Mrz 2007
F	List<String> zu byte[]	Allgemeine Java-Themen	7	21. Feb 2007
L	byte vs. int	Allgemeine Java-Themen	6	7. Jan 2007
G	Umwandlung Byte in Integer	Allgemeine Java-Themen	12	14. Dez 2006
N	Byte-Code entschlüsseln (Bitmasks?)	Allgemeine Java-Themen	3	12. Nov 2006
R	byte - string?	Allgemeine Java-Themen	10	23. Sep 2006
R	Stream Byte für Byte durchgehen	Allgemeine Java-Themen	5	22. Sep 2006
S	java.io.InputStream.read(byte[] b) überschreiben	Allgemeine Java-Themen	33	2. Jun 2006
B	boolean array = byte array (platzverbrauch)	Allgemeine Java-Themen	6	27. Apr 2006
L	byte[] to int	Allgemeine Java-Themen	2	17. Feb 2006
M	Vector zu einem byte[]	Allgemeine Java-Themen	5	2. Jan 2006
C	Byte Array aus Datei erzeugen	Allgemeine Java-Themen	6	27. Nov 2005
T	BufferedImage aus einem byte-Array?	Allgemeine Java-Themen	2	9. Sep 2005
B	Problem mit Einlesen vom Byte FF aus Dateien	Allgemeine Java-Themen	5	12. Aug 2005

Byte Order Mark (BOM) bei readLine() ignorieren

kodela

Bekanntes Mitglied

Robat

Top Contributor

Meniskusschaden

Top Contributor

Meniskusschaden

Top Contributor

Wurstkopp

Bekanntes Mitglied

kodela

Bekanntes Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen