Einlesen von Text Zeichensatzabhängig umsetzen

Gast · 10. Okt 2007

Hallo

ich habe vor ein Dokument einzulesen das mit UTF-8 codiert ist

Das mache ich so:

Code:

public ReadFormatedText(String path) throws IOException
	{
		file = new File(path);
	}


        public void readIn() throws IOException
	{
		randFile = new RandomAccessFile(file, "rw");
		buffer = new byte[(int)randFile.length()];
		
		if(file.isFile())
		{
			while(randFile.getFilePointer() < randFile.length())	
				randFile.read(buffer); //Bytes einlesen in buffer
					
			randFile.close();
		}
		if(file.isDirectory())
		{
			File[] files = file.listFiles();
			
			for(int index = 0; index < files.length; index++)
			{
				
				if(files[index].getName().endsWith(".html")) 
				{
					while(randFile.getFilePointer() < randFile.length())	
						randFile.read(buffer);
							
					randFile.close();	
				}
			}
		}
		result = new String(buffer, "UTF-8"); //String aus buffer mit Zeichensatz UTF-8 erzeugen
	}

Dann soll der String in eine andere Datei geschrieben werden:

Code:

public WriteFormatedTextFile(String pathToOutput, String pathToFormatedText) throws IOException 
	{
		file = new File(pathToOutput);
		randFile = new RandomAccessFile(file, "rw");
		readTxt = new ReadFormatedText(pathToFormatedText);
                readTxt.readIn();
	}

public void writeIt() throws IOException
	{

		randFile.writeBytes(readTxt.getFormatedText());
		randFile.close();
	}

Allerdings wird da wohl irgenwas versaut, deshalb hab ich mir einen kleinen Validator geschrieben der die Zwei Dateien anschließend vergleicht:

Code:

public class ValidateFormatedTextFile {

	private String erg1;
	private String erg2;
	
	public ValidateFormatedTextFile(String path1, String path2) throws IOException 
	{
		erg1 = writeFilesToString(path1);
		erg2 = writeFilesToString(path2);
	}
	
	public void validate()
	{
//------------------------------------------------------------------------------------
		//Stringvergleich
		boolean stringsEqual = false;
		if(erg1.equalsIgnoreCase(erg2))
			stringsEqual = true;
		
		if(stringsEqual == true)
		{
			if(!erg1.equals(erg2))
				stringsEqual = false;
		}
		
//------------------------------------------------------------------------------------
		byte[] by_erg1 = erg1.getBytes();
		byte[] by_erg2 = erg2.getBytes();
		
		//Längenvergleich
		boolean lengthEqual = false;
		if(by_erg1.length == by_erg2.length)
			lengthEqual = true;
		
		//bytevergleich
		boolean byteEqual = false;
		for(int count = 0; count < by_erg1.length; count++)
		{
			if(by_erg1[count] == by_erg2[count])
				byteEqual = true;
			else
				byteEqual = false;
		}
//--------------------------------------------------------------------------------------
		System.out.println("stringsEqual: " + stringsEqual);
		System.out.println("lengthEqual: " + lengthEqual);
		System.out.println("byteEqual: " + byteEqual);
	}
	
	public String writeFilesToString(String path) throws IOException
	{
		RandomAccessFile randFile = new RandomAccessFile(new File(path), "r");
		
		byte[] b = new byte[(int)randFile.length()];
		
		while(randFile.getFilePointer() < randFile.length())
		{	
				randFile.read(b);
		}
		randFile.close();
		
		return new String(b, "UTF-8");
	}

}

Ausgabe:

Code:

stringsEqual: false
lengthEqual: false
byteEqual: true

Das ganze wird so aufgerufen:

Code:

private static final String PATH1 = "c:\\testparser\\bliblablu.xhtml";
	private static final String PATH2 = "c:\\testparser\\test.xhtml";
	
	public static void main(String[] args) throws IOException 
	{
		WriteFormatedTextFile write_html = new WriteFormatedTextFile(PATH2, PATH1);
		write_html.writeIt();
		
		ValidateFormatedTextFile val = new ValidateFormatedTextFile(PATH1, PATH2);
		val.validate();
        }

Sorry für den ganzen Code aber ich denke er ist notwendig.
Meine Frage ist wie bekomm ich es hin eine exakte Kopie der Datei einzulesen und anschließend wieder auszugeben?
Auf was muss ich bei Stringoperationen, bezüglich des Zeichensatzes, achten?

Soweit wie ich im Moment bin erzeug mir das Prog zwar Augenscheinlich eine exakte Kopie aber wenn ich z.B. das ganze mit einem *.xhtml XHTML 1.0 STRICT mache kommt nur misst dabei raus.

Für meinen Test habe ich ein *.xhtml File genommen und die Kopi e soll auch xhtml sein.

Nochmal Sorry für das alles

Hoffe auf gute Hilfe

Murray · 10. Okt 2007

RandomAccessFile#writeBytes verwirft die oberen Bits der (Unicode-)Zeichen; hier wird nicht etwa automatisch in UTF-8 konvertiert. Du solltest selbst für eine geeignete Überführung des Strings in ein encodetes Byte-Array sorgen und das dann einfach mit RandomAccessFile#write 1:1 schreiben.

Code:

randFile.write(readTxt.getFormatedText().getBytes( "UTF-8"));

Guest · 10. Okt 2007

Jo vielen Dank jetzt funktionierts

	Titel	Forum	Antworten	Datum
Q	Text Datei einlesen	Allgemeine Java-Themen	27	18. Aug 2011
C	Datei als ASCII text einlesen ?	Allgemeine Java-Themen	16	11. Dez 2010
R	Java Text anderer Schriftart einlesen	Allgemeine Java-Themen	2	19. Mrz 2010
G	HTML-Datei einlesen, Plain Text in Textfile speichern	Allgemeine Java-Themen	4	30. Jun 2009
J	Text einer .csv Datei einlesen und Zeile in NEUE Zeile hänge	Allgemeine Java-Themen	1	17. Okt 2008
S	Bookmark HTML Datei einlesen, alle Links erhalten und manche editieren..? (aktuell JSoup)	Allgemeine Java-Themen	4	7. Jul 2022
	Textdatei einlesen und in HashMap speichern (duplikate entfernen)	Allgemeine Java-Themen	12	6. Apr 2022
N	Statistische Auswertung von Logfiles (Einlesen, auswerten und grafische Aufbereitung von logfiles) mit Java	Allgemeine Java-Themen	9	7. Mrz 2022
	Java Datei mehrmals einlesen	Allgemeine Java-Themen	4	11. Nov 2021
R	Sonderzeichen aus Datei einlesen und in Datei ausgeben.	Allgemeine Java-Themen	17	26. Aug 2021
M	Website Quelltext mit Java einlesen	Allgemeine Java-Themen	10	17. Sep 2020
L	Datein einlesen.	Allgemeine Java-Themen	5	15. Jun 2020
S	Rückgabe einer HttpURLConnection für eine Seite einlesen bei der man eingeloggt ist..?	Allgemeine Java-Themen	5	20. Mrz 2020
	Key/Value Table in Klasse einlesen	Allgemeine Java-Themen	14	2. Feb 2020
F	Datei in String-Array einlesen	Allgemeine Java-Themen	8	21. Jan 2020
N	Datei Zeilenweise Einlesen, Versteckte Zeichen	Allgemeine Java-Themen	5	14. Apr 2019
H	Strategy Pattern - changeColor() Methode - input rgd oder hex einlesen	Allgemeine Java-Themen	1	14. Jan 2019
T	Umlaute in Eclipse einlesen funktioniert nicht	Allgemeine Java-Themen	16	29. Dez 2018
	Erste Schritte Werte in Eingabefelder einlesen und wiederholen lassen.	Allgemeine Java-Themen	3	14. Mai 2018
R	.txt Datei einlesen und auf der Konsole ausgeben lassen	Allgemeine Java-Themen	11	29. Apr 2018
F	Problem beim Einlesen einer Textdatei	Allgemeine Java-Themen	12	6. Nov 2017
K	Datei (CSV-ähnlich) in Java einlesen & mit teil der Daten Graphen erstellen	Allgemeine Java-Themen	9	13. Jul 2017
J	Input/Output Word Datei einlesen, verarbeiten und abspeichern	Allgemeine Java-Themen	3	18. Feb 2017
K	RTF-Dokumente einlesen	Allgemeine Java-Themen	1	13. Feb 2017
E	Compiler-Fehler Unicode Zeichen einlesen	Allgemeine Java-Themen	1	28. Okt 2016
S	Variablen String[] Array per schleife in int[] einlesen	Allgemeine Java-Themen	8	8. Okt 2016
J	Java 8 Datei einlesen	Allgemeine Java-Themen	1	8. Apr 2016
S	Handschrift einlesen & darauf reagieren OCR	Allgemeine Java-Themen	2	12. Mrz 2016
K	Input/Output String aus einer Datei einlesen und in anderer Datei speichern	Allgemeine Java-Themen	20	4. Mrz 2016
J	Mehrere Wörter getrennt in eine Array einlesen, wie ?	Allgemeine Java-Themen	7	28. Feb 2016
R	Datei einlesen mit Win7	Allgemeine Java-Themen	8	26. Jan 2016
E	Best Practice LaTeX aus Textdateien einlesen und bearbeiten	Allgemeine Java-Themen	4	15. Jan 2016
	Bilddatei einlesen und bearbeiten?	Allgemeine Java-Themen	5	2. Nov 2015
	Mehrere html seiten einer Homepage einlesen und als Textdatei ausgeben	Allgemeine Java-Themen	14	23. Aug 2015
F	Datei einlesen funktioniert nicht	Allgemeine Java-Themen	3	13. Mai 2015
T	Geschlossen: Apache POI - Excel einlesen	Allgemeine Java-Themen	0	26. Apr 2015
J	BufferedReader Datei einlesen	Allgemeine Java-Themen	8	25. Mrz 2015
L	Level einlesen	Allgemeine Java-Themen	9	7. Feb 2015
J	Jar Datei mit anderer .jar einlesen	Allgemeine Java-Themen	4	11. Jan 2015
J	Best Practice Java 8 Datei einlesen und verarbeiten	Allgemeine Java-Themen	2	20. Dez 2014
M	Exceltabelle in Java erstellen und Werte einlesen	Allgemeine Java-Themen	32	4. Nov 2014
P	Input/Output java.util.Scanner in einer Schleife und Exception-Behandlung: Einlesen einer Zahl	Allgemeine Java-Themen	4	10. Okt 2014
B	Java - einlesen von Dateien und herausschneiden von XML Dokumenten	Allgemeine Java-Themen	5	7. Sep 2014
T	xls-Datei per Apache Commons CsvParser einlesen UTF-8 Zeichen russische Zeichen	Allgemeine Java-Themen	2	6. Jun 2014
D	Wörter aus Datei einlesen	Allgemeine Java-Themen	9	26. Mai 2014
D	Input/Output Zeilen werden "ignoriert" beim Einlesen aus einer Textdatei	Allgemeine Java-Themen	3	24. Mai 2014
	Input/Output Zeile aus Datei einlesen	Allgemeine Java-Themen	10	19. Mai 2014
N	Einlesen einer Kostenmatrix, Verarbeitung mit Nearest Neighbor	Allgemeine Java-Themen	1	3. Mai 2014
	String aus html einlesen	Allgemeine Java-Themen	2	20. Apr 2014
H	Excel Datei einlesen mit Apache POI	Allgemeine Java-Themen	1	13. Apr 2014
P	Input/Output Datei einlesen per Scanner(f) - mit Cron gehts nicht	Allgemeine Java-Themen	1	10. Feb 2014
	Dateien einlesen und vergleichen	Allgemeine Java-Themen	1	23. Jan 2014
	XML Datei einlesen und anschließen formatiert ausgeben in Datei	Allgemeine Java-Themen	0	13. Jan 2014
L	einfache Verzinsung mit for-Schleife & Ausschluss von Werten beim Einlesen	Allgemeine Java-Themen	5	12. Nov 2013
L	Input/Output Datei einlesen und Inhalt in Array schreiben	Allgemeine Java-Themen	3	29. Okt 2013
	Umlaute beim Einlesen von Dateinamen	Allgemeine Java-Themen	12	9. Sep 2013
C	Verzeichnis ins JMenu einlesen	Allgemeine Java-Themen	2	10. Feb 2013
M	Parameter-Datei einlesen (zeilenweise); Dateiintegrität	Allgemeine Java-Themen	7	21. Jan 2013
J	TextArea einlesen, mit string	Allgemeine Java-Themen	2	18. Dez 2012
I	Input/Output .csv Datei einlesen	Allgemeine Java-Themen	4	4. Okt 2012
	Schnelleres Einlesen von Images	Allgemeine Java-Themen	6	28. Sep 2012
A	TXT File einlesen unterschiedliche Zeilenlänge	Allgemeine Java-Themen	9	27. Aug 2012
A	Input/Output Bild in Java einlesen und analysieren!	Allgemeine Java-Themen	8	18. Mai 2012
H	Scanner soll einen Inputredirect einlesen, liest aber nicht jedes Wort ein.	Allgemeine Java-Themen	3	14. Mai 2012
R	String einlesen	Allgemeine Java-Themen	8	22. Mrz 2012
S	Datei in File-Objekt mit UTF-8 einlesen	Allgemeine Java-Themen	2	16. Mrz 2012
K	XML Quelltext Website einlesen?!	Allgemeine Java-Themen	3	2. Mrz 2012
M	File einlesen während es beschrieben wird..	Allgemeine Java-Themen	6	28. Feb 2012
S	Spaltenweise einlesen	Allgemeine Java-Themen	9	30. Jan 2012
K	JAVA Datei einlesen	Allgemeine Java-Themen	2	16. Jan 2012
S	Input/Output Latin-9 (ISO 8859-15) Textdatei einlesen	Allgemeine Java-Themen	2	12. Jan 2012
M	Erste Schritte alle xmlFiles in zugehörige pdfFiles einlesen	Allgemeine Java-Themen	4	4. Jan 2012
T	XML einlesen	Allgemeine Java-Themen	14	3. Jan 2012
M	Eclipse Stackoverflow beim Einlesen von großen Bilder in kd Baum	Allgemeine Java-Themen	15	20. Nov 2011
C	Strings in Excel einlesen!	Allgemeine Java-Themen	2	17. Nov 2011
K	htmlCode einlesen, Speicherüberlauf? zu viel code?	Allgemeine Java-Themen	21	31. Okt 2011
F	JavaMail - Lokale eMail-Datei einlesen und parsen?	Allgemeine Java-Themen	9	24. Okt 2011
K	CSV einlesen und speichern	Allgemeine Java-Themen	7	17. Okt 2011
T	Liste mit GregorianCalendar-Objekten in List einlesen, mit Collection sortieren und ausgeben	Allgemeine Java-Themen	3	7. Aug 2011
M	PDF einlesen mit PDFBox	Allgemeine Java-Themen	3	15. Jul 2011
L	Benutzereingabe einlesen	Allgemeine Java-Themen	5	23. Jun 2011
M	Einlesen einer Datei in Java	Allgemeine Java-Themen	3	29. Mai 2011
D	class Datei einlesen	Allgemeine Java-Themen	4	25. Mai 2011
B	StringBuilder von File einlesen	Allgemeine Java-Themen	8	16. Mai 2011
N	Probleme mit Umlauten beim Einlesen	Allgemeine Java-Themen	6	25. Apr 2011
M	Txt einlesen & Objekte erzeugen	Allgemeine Java-Themen	2	25. Apr 2011
E	Leerzeichen verschwinden beim Einlesen von .txt-Dateien	Allgemeine Java-Themen	5	14. Apr 2011
A	JExcel Formel einlesen	Allgemeine Java-Themen	2	5. Feb 2011
G	Java PDF-Einlesen	Allgemeine Java-Themen	9	26. Jan 2011
H	excel einlesen und in db schreiben	Allgemeine Java-Themen	2	26. Jan 2011
A	Datei als Object einlesen und das Object als Singleton instance setzen.	Allgemeine Java-Themen	13	24. Jan 2011
B	class dateien "einlesen" und objekte erzeugen	Allgemeine Java-Themen	6	14. Jan 2011
M	UTF-8 Datein einlesen, Zeichenproblem	Allgemeine Java-Themen	9	11. Nov 2010
H	Textdatei (1GB) einlesen und verarbeiten	Allgemeine Java-Themen	15	10. Nov 2010
D	Shortcut statt Datei einlesen	Allgemeine Java-Themen	2	9. Sep 2010
E	HTML File mit Umlaute einlesen	Allgemeine Java-Themen	8	3. Sep 2010
J	Konfigurationsdatei einlesen	Allgemeine Java-Themen	21	26. Aug 2010
G	BigInteger aus DB nach einlesen in JAVA eingeklammert	Allgemeine Java-Themen	3	23. Aug 2010
	mehrzeilige .txt einlesen/formatieren	Allgemeine Java-Themen	8	22. Aug 2010
B	Applet .java Datei einlesen, anzeigen	Allgemeine Java-Themen	3	21. Aug 2010

Einlesen von Text Zeichensatzabhängig umsetzen

Gast

Gast

Murray

Top Contributor

Guest

Gast

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen