UTF-8 Text

Status
Nicht offen für weitere Antworten.

Bollywood

Neues Mitglied
Hallo,

Ich habe erst vor ein paar Wochen Java gelernt, bitte schlagt mich noch nicht für unschönen Code ;).

Folgende Schwierigkeit hat sich ergeben: Ziel ist es, eine Datei zeilenweise einzulesen, und Berechnungen über die Wortdimensionen anzustellen. Das klappt für einen deutschen Text ganz gut, jedoch will ich vor allem Sprachen mit anderen Zeichensätzen einlesen und bearbeiten (vor allem Hindi). Hier geschieht es jedoch, dass beim Auslesen noch gewisse Metainformationen über den Text als Inhalt mitgeliefert werden. Wie kann ich das vermeiden?

Im Dokument befindet sich nur 1 Zeile Hindi-Text, die Zahlen sind das Berechnungsergebnis, die Zeile davor das, was das Programm aus der Datei liest, es "erkennt" also 3 Zeilen.

HTML:
{\rtf1\ansi\ansicpg1252\deff0\deflang1031{\fonttbl{\f0\fswiss\fcharset1 Mangal;}{\f1\fnil\fcharset0 Courier New;}}
0, 378, 15; 381, 518, 15; 521, 562, 15; 565, 601, 15;  Geschrieben
{\*\generator Msftedit 5.41.15.1515;}\viewkind4\uc1\pard\f0\fs20\u2319?\u2325? \u2310?\u2342?\u2350?\u2368? \u2360?\u2337?\u2364?\u2325?\f1\par
0, 68, 15; 71, 113, 15; 116, 433, 15; 436, 616, 15; 619, 833, 15;  Geschrieben
}
0, 4, 15;  Geschrieben

Hier der Code der Klasse:
[HIGHLIGHT="Java"]

package job;

import java.io.*;
import java.util.StringTokenizer;

public class Routine {

//Konstruktor
public Routine(File Datei,String Font, int Fontsize )
{
try{
try{
// Inputdatei lesen
BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(Datei), "UTF8"));
eingabe = in;
}
catch(Exception e){System.out.println("Eingabedatei konnte nicht gelesen werden");}


try{
// Outputdatei erstellen
Writer out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(ausgaben(Datei)), "UTF8"));
ausgb = out;
}
catch(Exception e){System.out.println("Ausgabedatei konnte nicht erstellt werden");}

// Breite des Leerzeichens ermitteln
Wort leer = new Wort(" ", Font, Fontsize);
int leerzeichen = leer.getWidth();

// Ausgabestring beginnen
ausgabe = "";
// Forschritt beginnen
fortschritt = 0;

// Berechnungen durchführen und in Outputdatei schreiben
while((tmp=eingabe.readLine())!=null){
StringTokenizer st = new StringTokenizer(tmp);

while (st.hasMoreTokens()) {

// Wort mit 3 Argumenten initialisieren
Wort akt = new Wort(st.nextToken(), Font, Fontsize );

// Höhe und Breite herausfinden
int hoehe = akt.getheight();
int breite = akt.getWidth();

// Den Satzstring weiter aufbauen
aufbau(hoehe, breite, leerzeichen);
}

// System.out.println(tmp);
// Ausgabestring in Datei schreiben
// String schreiben = ausgabe+"\n";
ausgb.write(ausgabe);
// System.out.println(ausgabe+" Geschrieben");

// Aufbauvariablen zurücksetzen
ausgabe ="";
fortschritt = 0;
}
// Aufräumen
eingabe.close();
ausgb.close();

}
catch(Exception e){ System.out.println("Routine konnte nicht erstellt werden");}

}


//Name der Ausgabedatei ermitteln
private String ausgaben(File eingabe)
{
return eingabe.getParent()+"\\AOI_"+eingabe.getName();
}

private void aufbau(int hoehe, int breite, int leer)
{
//String roher = fortschritt.toString();
// int start = fortschritt + leer;
int anfang = fortschritt;
int ende = fortschritt + breite;
ausgabe = ausgabe + anfang + ", " + ende + ", " + hoehe + "; ";
fortschritt = fortschritt + breite + leer;
}

// Instanzvariablen
String ausgabename,tmp, ausgabe;
BufferedReader eingabe;
Writer ausgb;
int fortschritt;


}
[/HIGHLIGHT]
 

Fancy

Aktives Mitglied
Moin,

HTML:
{\rtf1\ansi\ansicpg1252\deff0\deflang1031{\fonttbl{\f0\fswiss\fcharset1 Mangal;}{\f1\fnil\fcharset0 Courier New;}}
0, 378, 15; 381, 518, 15; 521, 562, 15; 565, 601, 15;  Geschrieben
{\*\generator Msftedit 5.41.15.1515;}...

Dein Quelltext lässt vermuten, dass Du UTF-8 plaintext einlesen willst, Deine Datei ist aber eine mit dem WordPad verfasste RTF Datei.

Versuche mal folgendes:

[HIGHLIGHT="Java"]final RTFEditorKit rtfEditorKit = new RTFEditorKit();
final Document document = new DefaultStyledDocument();

final BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(datei), "UTF8"));

rtfEditorKit.read(in, document, 0);

final String plaintext = document.getText(0, document.getLength());

System.out.println(plaintext);[/HIGHLIGHT]

Gruß,
Michael
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
O Text aus einer Textdatei rausholen, der zwischen zwei Schlüsselworten steht Allgemeine Java-Themen 4
K Bildschirm auslesen/ Text erkennen Allgemeine Java-Themen 5
berserkerdq2 Text über einen Shape anzeigen (Scenebuilder) Allgemeine Java-Themen 1
M Thymeleaf th value und th text Allgemeine Java-Themen 1
_user_q Eingegebenen Text Zeile für Zeile ausgeben lassen Allgemeine Java-Themen 11
_user_q Eingegebenen Text wiederholt schreiben lassen Allgemeine Java-Themen 9
G Darstellung von Text auf MapContext von GeoTools Allgemeine Java-Themen 2
Alex_99 Programm stürzt beim Aufruf der Funktion ab? Text ausgeben Allgemeine Java-Themen 45
Mozart53 JLabel nur meinen Text verschieben ohne Image Allgemeine Java-Themen 3
izoards Bestimmter Text aus PDF extrahieren Allgemeine Java-Themen 3
B Scanner erkennt keinen Text in Textdatei, obwohl welcher drinsteht Allgemeine Java-Themen 10
K HTMLEditor HTML Text in Rich Text umwandeln Allgemeine Java-Themen 14
kodela JDialog zeigt Text nicht an Allgemeine Java-Themen 5
L Text filtern Allgemeine Java-Themen 1
Bluedaishi TEXT Kodierung Allgemeine Java-Themen 3
J Die Letzte Zahl aus einer Text datei lesen Allgemeine Java-Themen 8
S Ini Text aus String parsen Allgemeine Java-Themen 1
M itext - Button der Text in Zwischenablage stellt Allgemeine Java-Themen 0
E CSV mit Text und Binärdaten auslesen Allgemeine Java-Themen 7
FRI3ND Datentypen Date-Array sortieren - Text mitnehmen? Allgemeine Java-Themen 7
I Text suchen und ersetzen im Word Dokument Allgemeine Java-Themen 3
windl Text mining / deep learning Allgemeine Java-Themen 0
I Text aus Input-Box entnehmen und zuweisen Allgemeine Java-Themen 1
KeexZDeveoper Text Mining Allgemeine Java-Themen 3
L Input/Output Wie kann man in der Konsole einen Text farbig ausgeben z.b in grün Allgemeine Java-Themen 6
B Arrays mit Text und Zahlen füllen Allgemeine Java-Themen 3
A Datenexport (Text und Draw) Allgemeine Java-Themen 1
L Text von txt auf JTextArea Allgemeine Java-Themen 4
N Das Ende von bestimmten zeilen in text datei ändern und speichern Allgemeine Java-Themen 3
A 2D-Grafik Text in ein Bild schreiben Allgemeine Java-Themen 11
T Textarea text wird immer überschrieben Allgemeine Java-Themen 4
I Apache POI Word Text einfügen Allgemeine Java-Themen 26
T itext: text in ein textfeld hinzufügen Allgemeine Java-Themen 2
B Farbiger Text in der Konsole Allgemeine Java-Themen 1
K Pdf mit dynamischem Text mit iText Allgemeine Java-Themen 0
D Text Analyzer Allgemeine Java-Themen 2
RalleYTN Audiodatein(.ogg/.wav) in Text konvertieren Allgemeine Java-Themen 0
L Nach Button drücken den Text festspeichern Allgemeine Java-Themen 9
X Löschen von einer Zeile in einer Text Datei. Klappt nicht. Allgemeine Java-Themen 4
J Text lesen und in Variablen speichern Allgemeine Java-Themen 3
S Text in mehreren Sprachen korrekt darstellen? Wie waehle ich die Fonts aus..? Allgemeine Java-Themen 0
J Java - Zeile aus Text datei löschen Allgemeine Java-Themen 13
M Text in erstelltes Excelfile schreiben Allgemeine Java-Themen 6
N Input/Output Website Text auslesen und bestimmte Zeilen wiedergeben Allgemeine Java-Themen 4
W Arraylist Text Suchen und Datei löschen Allgemeine Java-Themen 5
P HTML Text bearbeiten Allgemeine Java-Themen 1
B JFrame Text Ausgabe Allgemeine Java-Themen 7
G Makierter Text in Arbeitsspeicher Allgemeine Java-Themen 2
B Text in die Mitte der Konsole schreiben. Allgemeine Java-Themen 1
M Variablen Variablen in Text einbinden Allgemeine Java-Themen 5
P iText Text zentrieren Allgemeine Java-Themen 3
J Verschlüsselung von Text? Allgemeine Java-Themen 2
M Text datei in java jar datei einbinden Allgemeine Java-Themen 4
S Swing Text in eine JTextArea schreiben Allgemeine Java-Themen 17
M Verschlüsselung von Text und Files durch RSA (Encoding Problem) Allgemeine Java-Themen 7
S Robuste Methode um Text von HTML code zu extrahieren..? Allgemeine Java-Themen 6
achillesat Rich Text Editor Allgemeine Java-Themen 2
M CMD-Text anzeigen Allgemeine Java-Themen 10
G Text Mining Allgemeine Java-Themen 7
B Text auf Standarddrucker drucken Allgemeine Java-Themen 3
S Library fuer Internet-Text-Daten-Quellen..? Allgemeine Java-Themen 8
nrg Find and replace Text docx Allgemeine Java-Themen 6
M Ein bestimmtes Wort in einem Text zählen (String in String) Allgemeine Java-Themen 9
S Text in for Schleife in Label einfügen Allgemeine Java-Themen 4
M Funktion gesucht: Text vektorisieren Allgemeine Java-Themen 20
D Wort in Text mit >100.000 Wörter finden Allgemeine Java-Themen 7
B Text wird nicht richtig angezeigt Allgemeine Java-Themen 9
Q Text Datei einlesen Allgemeine Java-Themen 27
N .doc text ändern Allgemeine Java-Themen 12
R Komponente hat nicht die gesetzten Eingeschaften (Text, Farbe) Allgemeine Java-Themen 3
M NOA an den Source Text des Dokumentes kommen Allgemeine Java-Themen 7
A Text via RegEx durchsuchen und teile ersetzten Allgemeine Java-Themen 5
O Text mit Wildcard gegen regulären Ausdruck prüfen Allgemeine Java-Themen 3
A Umwandlung von Text/Zeichen in Polynome Allgemeine Java-Themen 8
Y Eclipse ppt Folie erzeugen + text plazieren Allgemeine Java-Themen 4
cedi Eingegebenen Text in der Konsole nicht sichtbar machen oder nur in Sternchen anzeigen Allgemeine Java-Themen 2
D markierten Text kopieren Allgemeine Java-Themen 2
P Doppeltverkettete Listen + Text Allgemeine Java-Themen 5
DEvent embedded Object Database in Text Format Allgemeine Java-Themen 5
C Datei als ASCII text einlesen ? Allgemeine Java-Themen 16
R Texterkennung - Text aus einem/r Bild/Grafik auslesen Allgemeine Java-Themen 2
M String in Html Text umwandeln Allgemeine Java-Themen 2
T eingefügter Text nach dem rendern spiegelverkehrt Allgemeine Java-Themen 2
lumo encoding einer text-datei Allgemeine Java-Themen 2
E Text ans Ende einer Textdatei anfügen Allgemeine Java-Themen 2
E JTextArea / JEditorPane + Text formatieren Allgemeine Java-Themen 3
R Java Text anderer Schriftart einlesen Allgemeine Java-Themen 2
A AES Key aus Text erzeugen Allgemeine Java-Themen 2
S Koordinaten aus einem Text filtern Allgemeine Java-Themen 11
turmaline Text aus Web-Seiten auslesen Allgemeine Java-Themen 1
MQue Graphics2D Text Allgemeine Java-Themen 2
U Text verschmelzen Allgemeine Java-Themen 8
martin82 Java-Code aus Text-Datei parsen Allgemeine Java-Themen 3
W Text curser auswählen für Paste Allgemeine Java-Themen 15
G HTML-Datei einlesen, Plain Text in Textfile speichern Allgemeine Java-Themen 4
S Bestes Text file encoding..? Allgemeine Java-Themen 36
H Passwortgschützter Text Allgemeine Java-Themen 13
C IReport Feldberechnen und als Text ausgeben Allgemeine Java-Themen 4
D Bild in text tabelle umwandeln Allgemeine Java-Themen 2
W Auf markierten Text zugreifen? Allgemeine Java-Themen 5

Ähnliche Java Themen

Neue Themen


Oben