Input/Output FileReader UTF-8 Datei

S

Stephan222

Gast
Hallo,

ich habe folgendes Problem:

Ich lese Zeile für Zeile aus einer Textdatei per BufferedReader.
Nun ist mir aufgefallen, dass falls die Datei UTF-8 kodiert ist, in der ersten Zeile immer ein zusätzliches "leeres" Zeichen enthalten ist.
Dieses würde ich gerne aus meinem String bekommen, weiß aber nicht wie ich das anstellen soll bzw. wie ich abfragen kann ob dieses Zeichen vorhanden ist.
Es ist ja auch nur bei UTF-8 Dateien und immer nur in der ersten Zeile und nicht generell.

So sieht der Code aus:
Java:
ArrayList<String> result = new ArrayList<String>();
BufferedReader in;
try {
	in = new BufferedReader(new FileReader(file.getAbsoluteFile()));
	
	String zeile = null;
	
	while ((zeile = in.readLine()) != null) {
		result.add(zeile);
	}
			
	in.close();
} catch (IOException e) {
	log.error("Read input file failed: " + e.getMessage());
}

Im Debugger sieht es so aus:
empty01w5.png


Wichtig ist, dass es kein Leerzeichen ist sowie der Value mit dem Index 18 auf dem Bild.
Wenn ich in das Feld reinklicke, ist es einfach nur leer.

Aber sowas wie: zeile.charAt(0) == '' geht ja nicht abzufragen >.>

Wie würdet ihr vorgehen?
 

HoaX

Top Contributor
Der BOM dürfte es nicht sein, der ist mindestens 2 Bytes/Zeichen lang.
Probiere doch mal String#trim(). Ansonsten schau mal nach welchen Code das Zeichen hat. Dazu am einfachsten einen Hexeditor nehmen. Dann kannst du zumindest mit getCharAt(0) == 4711 vergleichen ob es das Zeichen ist.
 
S

Stephan222

Gast
Also ich habe die Datei mal mit einem Hex Editor geöffnet und am Anfang steht sowas:
EF BB BF
Also als ASCII Zeichen: 
 
S

Stephan222

Gast
Nachtrag:
Scheint wohl doch dieses BOM zu sein, weil ich wenn ich mite Notepad++ die Datei öffne und bei Kodierung dann "Konvertiere zu UTF-8 ohne BOM" auswähle, abspeichere und das dann noch mal debugge, dann ist das Zeichen vorweg verschwunden.
Nun ist die Frage: Wie bekomme ich bei Dateien mit BOM, dieses BOM weg?
 

HoaX

Top Contributor
Ja, das ist der BOM. Den bekommst du weg indem du ihn überliest. Evtl hilft es auchschon nicht FileReader sonder InputStreamReader zu verwenden und das passende Encoding mit anzugeben. Denn so wie du das momentan machst liest du als iso-8859-1 ein.
 

Ariol

Top Contributor
Das ist schon seit Java 1.4.2 als "Bug" gemeldet, wird aber aus "Kompatibilitätsgründen" nicht geändert -.-

Bug ID: 4508058 UTF-8 encoding does not recognize initial BOM

Dir bleibt wohl nix anderes als den BOM am Anfang selbst zu überspringen.

Eventuell hilft dir das (ungetestet):
Java:
package bom;

enum BOM
{
	
	BOM_UTF_8(0xEF, 0xBB, 0xBF),
	BOM_UTF_16_BE(0xFE, 0xFF),
	BOM_UTF_16_LE(0xFF, 0xFE),
	BOM_UTF_32_BE(0x00, 0x00, 0xFE, 0xFF),
	BOM_UTF_32_LE(0xFF, 0xFE, 0x00, 0x00),
	BOM_UTF_7(0x2B, 0x2F, 0x76),
	BOM_UTF_1(0xF7, 0x64, 0x4C),
	BOM_UTF_EBCDIC(0xDD, 0x73, 0x66, 0x73),
	BOM_SCSU(0x0E, 0xFE, 0xFF),
	BOM_BOCU_1(0xFB, 0xEE, 0x28),
	BOM_GB_18030(0x84, 0x31, 0x95, 0x33);
	
	byte[] bytes;	
	private BOM(int...bytes)
	{
		this.bytes = new byte[bytes.length];
		for(int i = 0; i < bytes.length; i++)
		{
			this.bytes[i] = (byte) bytes[i];
		}
	}
	
	public byte[] getBytes()
	{
		return this.bytes;
	}
		
	public String asString()
	{
		return new String(this.bytes);
	}
	
	public int length()
	{
		return this.bytes.length;
	}
}

Java:
package bom;

import java.io.IOException;

public class InvalidBOMException extends IOException
{
	private static final long serialVersionUID = -612753111805892956L;

	public InvalidBOMException(byte current, byte b)
	{
		super(String.format("Invalid BOM: expected 0x%02x, but read 0x%02x", b, current));
	}

}

Java:
package bom;

import java.io.File;
import java.io.FileDescriptor;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;

public class BOMFileInputStream extends FileInputStream
{
	public BOMFileInputStream(File file) throws FileNotFoundException
	{
		super(file);
	}

	public BOMFileInputStream(FileDescriptor fileDescriptor) throws FileNotFoundException
	{
		super(fileDescriptor);
	}

	public BOMFileInputStream(String name) throws FileNotFoundException
	{
		super(name);
	}

	public void skip(BOM bom) throws IOException
	{
		byte[] bomBytes = bom.getBytes();
		for (int i = 0; i < bomBytes.length; i++)
		{
			int current = read();
			if (current == -1) // EOF
				return;

			byte currentByte = (byte) current;
			if (currentByte != bomBytes[i])
			{
				throw new InvalidBOMException(currentByte, bomBytes[i]);
			}
		}
	}
}
 

HoaX

Top Contributor
Ariol: Auch andere Streams können ja einen BOM+Text enthalten. Von dem her wäre es besser wenn es BOMInputStream heißen würde und von FilterInputStream erbt.
 

Ariol

Top Contributor
Dann eben so (ungetestet):

Java:
package bom;
 
import java.io.FilterInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.Arrays;
 
public class BOMInputStream extends FilterInputStream
{
	private ByteOrderMark bom;
	
    public BOMInputStream(InputStream in) throws IOException
    {
        super(in);
        for(ByteOrderMark bom : ByteOrderMark.values())
        {
        	if(checkByteOrderMark(bom)) //BOM_NO_BOM will always work
        	{
        		this.bom = bom;
        		break;
        	}
        }
        
    }
    
    public ByteOrderMark getByteOrderMark()
    {
    	return this.bom;
    }

    private boolean checkByteOrderMark(ByteOrderMark bom) throws IOException
    {
    	if(bom == ByteOrderMark.BOM_NO_BOM)
    	{
    		reset();
    		return true;
    	}
    	
        byte[] bomBytes = bom.getBytes();
    	byte[] inBytes = new byte[bomBytes.length];
        
    	if(read(inBytes) != inBytes.length)
    	{
    		reset();
    		return false;
    	}
        
        if(!Arrays.equals(inBytes, bomBytes))
        {
    		reset();
    		return false;
    	}
        
        mark(Integer.MAX_VALUE);
        return true;
    }
}


Java:
package bom;
 
enum ByteOrderMark
{
	//4 bytes
    BOM_UTF_32_BE(0x00, 0x00, 0xFE, 0xFF),
    BOM_UTF_32_LE(0xFF, 0xFE, 0x00, 0x00),
    BOM_UTF_EBCDIC(0xDD, 0x73, 0x66, 0x73),
    BOM_GB_18030(0x84, 0x31, 0x95, 0x33),
    
    //3 bytes
    BOM_UTF_8(0xEF, 0xBB, 0xBF),
    BOM_UTF_7(0x2B, 0x2F, 0x76),
    BOM_UTF_1(0xF7, 0x64, 0x4C),
    BOM_SCSU(0x0E, 0xFE, 0xFF),
    BOM_BOCU_1(0xFB, 0xEE, 0x28),
    
    //2 bytes
    BOM_UTF_16_BE(0xFE, 0xFF),
    BOM_UTF_16_LE(0xFF, 0xFE),

    //no BOM
    BOM_NO_BOM();
    
    byte[] bytes;   
    private ByteOrderMark(int...bytes)
    {
        this.bytes = new byte[bytes.length];
        for(int i = 0; i < bytes.length; i++)
        {
            this.bytes[i] = (byte) bytes[i];
        }
    }
    
    public byte[] getBytes()
    {
        return this.bytes;
    }
        
    public String asString()
    {
        return new String(this.bytes);
    }
    
    public int length()
    {
        return this.bytes.length;
    }
}
 
Ähnliche Java Themen
  Titel Forum Antworten Datum
Master3000 JAVA Filereader Allgemeine Java-Themen 18
S FileReader-Problem in Eclipse Allgemeine Java-Themen 8
S Input/Output File Not Found FileReader Allgemeine Java-Themen 6
K FileWriter / FileReader Allgemeine Java-Themen 12
B FileWriter / FileReader testen / Mock-Objekt für Unit Tests? Allgemeine Java-Themen 6
C OpenJDK - FileReader throws FileNotFoundException Allgemeine Java-Themen 19
G Kopie eines FileReader Allgemeine Java-Themen 4
U Filereader problem Allgemeine Java-Themen 2
S was passiert bei diesem filereader prozess Allgemeine Java-Themen 2
B HTML und FileReader Allgemeine Java-Themen 2
H Dateien lesen und schreiben mit Filereader und Filewriter Allgemeine Java-Themen 2
S FileReader Methode nach Zeilen. Allgemeine Java-Themen 2
kodela StatusBar-Anzeigen auch in Log-Datei ausgeben Allgemeine Java-Themen 3
G Maven Projekt JAR-Datei Allgemeine Java-Themen 6
E XML - Datei Darstellung in IntelliJ als Baum Allgemeine Java-Themen 2
Thomasneuling Java Jar datei erstellen, von Projekt, dass auch Javafx Dateien, FXML Dateien und CSS Dateien, sowie Bilder enthält? Allgemeine Java-Themen 14
D Erste Schritte Mp3 Datei kann nicht von der Festplatte geöffnet werden - mit ChatGPT erstellt Allgemeine Java-Themen 7
J Filenotfoundexception obwohl Datei existiert Allgemeine Java-Themen 6
M Java Überprüfen ob .exe-Datei bereits ausgeführt wird Allgemeine Java-Themen 2
S .exe Datei/Programm auslesen? Allgemeine Java-Themen 2
E Datei verschoben Event Allgemeine Java-Themen 3
D Datei mit "Kohsuke GitHub API" in Repository hochladen Allgemeine Java-Themen 2
S Bookmark HTML Datei einlesen, alle Links erhalten und manche editieren..? (aktuell JSoup) Allgemeine Java-Themen 4
melaniemueller Einzelne Zeile aus einer txt Datei in einem String speichern Allgemeine Java-Themen 12
G JavaFX Maven Projekt als .exe Datei exportieren Allgemeine Java-Themen 10
J (Geplante) Änderungen an einer Datei vorübergehend speichern und anwenden? Allgemeine Java-Themen 12
Neumi5694 Datei komprimiert Allgemeine Java-Themen 6
_user_q Obfuscate einer .jar-Datei mit ProGuard? Allgemeine Java-Themen 2
_user_q Verknüpfung einer .jar-Datei (liegt z. B. auf dem Desktop) im Autostart-Ordner erstellen? Allgemeine Java-Themen 20
E java mithilfe url .jar datei öffnen Allgemeine Java-Themen 9
E Java .exe Datei mit args starten Allgemeine Java-Themen 2
W Bilder werden in App mit Jar-Datei nicht angezeigt Allgemeine Java-Themen 15
Master3000 Java Datei mehrmals einlesen Allgemeine Java-Themen 4
M Excel Datei Erstellen Allgemeine Java-Themen 2
E Input/Output Eigene Datei mit java öffnen Allgemeine Java-Themen 9
R Sonderzeichen aus Datei einlesen und in Datei ausgeben. Allgemeine Java-Themen 17
Tobero Download .jar von github lädt kaputte Datei runter Allgemeine Java-Themen 3
P Bat Datei in Java ausführen Allgemeine Java-Themen 2
S Verwendet Programmiersprache aus Quellcode - Datei ermitteln Allgemeine Java-Themen 6
T Problem beim Umwandeln in eine Jar-Datei Allgemeine Java-Themen 3
J Jar-Datei ausführen Allgemeine Java-Themen 7
C Outlook msg-Datei Anhänge extrahieren Allgemeine Java-Themen 2
G Datei aus Ordner wählen, ohne den Dateinamen im Pfad angeben zu müssen Allgemeine Java-Themen 4
G Datei senden via Xmodem an Serial-Port Allgemeine Java-Themen 35
C Wav-Datei aus Jar laden? Allgemeine Java-Themen 11
L Best Practice Zip Datei aktualisieren Allgemeine Java-Themen 1
N Speicherort einer Datei im Explorer ändern Allgemeine Java-Themen 8
H Mehrere PNG-Files in einer Datei Allgemeine Java-Themen 9
Gaudimagspam CSV-Datei auslesen in Java Allgemeine Java-Themen 7
S createTempFile erstellt keine temporäre Datei Allgemeine Java-Themen 13
Hatsi09 Jar datei ausführen verursacht NumberFormatException Allgemeine Java-Themen 9
kodela bestimmten Dateityp immer mit jar-Datei öffnen Allgemeine Java-Themen 17
N Arrayliste in eine Datei speichern Allgemeine Java-Themen 4
B .txt Datei erstellen und auslesen bzw. schreiben Allgemeine Java-Themen 6
J Öffnen eine jar-Datei Allgemeine Java-Themen 11
Dann07 MP3 Datei abspielen funktioniert nicht Allgemeine Java-Themen 6
H ArrayListe in CSV Datei speichern Allgemeine Java-Themen 6
O Aus JAR-Datei erstellte EXE-Datei funktioniert nicht Allgemeine Java-Themen 10
N Txt Datei auslesen. Allgemeine Java-Themen 5
B Datei/Ordner auf Server zugreifen/erstellen Allgemeine Java-Themen 2
MiMa Datei verschieben hat einen Fehler?? Allgemeine Java-Themen 20
MiMa Erstellungsdatum einer Datei Allgemeine Java-Themen 10
O xlsx Datei auslesen mit POI Apache liest keine LEERZELLEN Allgemeine Java-Themen 6
P Input/Output entfernte Datei mit Java öffnen ohne Download Allgemeine Java-Themen 5
O xlsx Datei auslesen mit POI von Apache wirft seltsamen Fehler. Allgemeine Java-Themen 11
J Hilfe, Jar Datei kann nicht ausgeführt werden Allgemeine Java-Themen 2
M Programm erkennt String aus .txt Datei nicht Allgemeine Java-Themen 3
O Java-Applikation tut in Netbeans, als JAR nicht, wegen Pfadangaben einer benötigten Datei Allgemeine Java-Themen 8
J Fehlermeldung bei Ausführung von .jar-Datei Allgemeine Java-Themen 9
J Die Letzte Zahl aus einer Text datei lesen Allgemeine Java-Themen 8
Elyt Compiler-Fehler Datei kann nicht erstellt werden. Die Syntax für den Dateinamen etc. ist falsch. Allgemeine Java-Themen 2
M Probleme jar datei. Allgemeine Java-Themen 2
F Datei in String-Array einlesen Allgemeine Java-Themen 8
O docx-Datei erzeugung mit DocXStamper funktioniert nicht Allgemeine Java-Themen 2
T Objekt mit String und Int aus TxT Datei erstellen Allgemeine Java-Themen 23
Bluedaishi Prüfen ob Datei noch geöffnet ist Allgemeine Java-Themen 59
I Temp-Datei wird nicht gelöscht Allgemeine Java-Themen 12
D ODS.Datei öffnet leider in Excel Allgemeine Java-Themen 3
L JavaFX JavaFX Chart in Apache Poi Excel Datei Allgemeine Java-Themen 2
D .txt Datei in .jar Datei speichern Allgemeine Java-Themen 3
ralfb1105 Blöcke aus Datei filtern/suchen und in neue Datei schreiben Allgemeine Java-Themen 10
M Daten aus MatLab Datei lesen Allgemeine Java-Themen 8
L SQL Datei in Eclipse erstellen Allgemeine Java-Themen 3
Drachenbauer Wie sorge ich dafür, dass mein Spiel die ini-Datei in der Resourcen-ordner des Projektes schreibt? Allgemeine Java-Themen 5
Trèfle Excel-Datei nicht speicherbar, da von Java zum Bearbeiten gesperrt. Allgemeine Java-Themen 3
N Datei Zeilenweise Einlesen, Versteckte Zeichen Allgemeine Java-Themen 5
L Excel Datei löscht sich selbst im Programm - Java Allgemeine Java-Themen 3
G Workupload datei mit Java Downloaden Allgemeine Java-Themen 6
H .jar Datei startet nicht richtig bei Doppelklick Allgemeine Java-Themen 11
S Hilfe bei dem Auslesen einer YAML Datei Allgemeine Java-Themen 8
M Java Eclipse- Datei exportieren Allgemeine Java-Themen 5
R jar-Datei funktioniert nicht Allgemeine Java-Themen 2
R .txt Datei einlesen und auf der Konsole ausgeben lassen Allgemeine Java-Themen 11
T Jar Datei nicht ausführbar Allgemeine Java-Themen 6
H jar-Datei mit java.exe anstatt mit javaw.exe ausführen Allgemeine Java-Themen 9
S Datei wird nicht gefunden Thread.currentThread().getContextClassLoader().getResourceAsStream() Allgemeine Java-Themen 1
A Steuerung von Spiel aus Datei lesen Allgemeine Java-Themen 0
Javafan01 .sh datei in Java ausführen Allgemeine Java-Themen 1
MiMa Speichern von Programmeinstellungen in Datei Allgemeine Java-Themen 7
J Ordner und Datei Struktur einer War Datei Allgemeine Java-Themen 1

Ähnliche Java Themen

Neue Themen


Oben