Unicode 06 (Arabic)

Status
Nicht offen für weitere Antworten.

max5432

Aktives Mitglied
Hallo allerseits!

Ich habe in einer Datei arabische Zeichen in Hexadarstellung - Unicode mit 06-Startbyte. Mein Ziel wäre es, den Text schlussendlich in lesbarer Form darzustellen (die Interpretation ist nicht meine Sache). Hat jemand mit dieser Codierung schon Erfahrungen gemacht? Wie könnte man diese am enfachsten machen?

Beispiel für eine Zeile in der Datei: 064506460020064706450020062F06480633

Danke
 

max5432

Aktives Mitglied
Was soll denn raus kommen? Das hier: من هم دوس? Is normales UTF-16 ...

Nun, was alles in einer solchen Datei vorkommen kann, weiss ich nicht. Ich muss es nur decodieren und möglichst in einer Textdatei zur Verfügung stellen.

Folgender Versuch:

[HIGHLIGHT="Java"]

String s = "064506460020064706450020062F06480633";
/* Hex-Zeichenkette in Bytes umwandeln (hier 'von Hand') */
byte[] buffer = {6, 69, 68, 0, 32, 6, 71, 6, 69, 0, 32, 6, 47, 6, 72, 6, 51};
/* String erzeugen */
String str = new String(buffer, "UTF-16");
/* OutputStream erzeugen */
OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("C:/Temp/strOut.txt"), "UTF-16");
/* Den String in die Datei schreiben */
osw.write(str);

[/HIGHLIGHT]

Könnte dies in etwa so ablaufen? Und falls ja, wie könnte ich dies sinnvoll in einer Textdatei auch anzeigen? Codepage, ...
 

HoaX

Top Contributor
Du würfelst da ganzschön Dinge durcheinander ....

Um etwas richtig darstellen zu können musst du erstmal wissen wie es kodiert ist. In obigem Fall scheinbar UTF-16, wenn der Inhalt verschieden kodiert ist hast du pech.

Den String erstellst du schon richtig - wenn die Bytes denn UTF-16 darstellen. Du kannst danach wie gewöhnlich weiterarbeiten.

Im ersten Posting sprichst du von Anzeigen, im nächsten schreibst du die Daten so wie du sie gelesen hast wieder in eine Datei?!

max5432 hat gesagt.:
wie könnte ich dies sinnvoll in einer Textdatei auch anzeigen? Codepage, ...
Ergibt null (0) Sinn. Eine Datei enthält Bytes, aber zeigt nichts an.

Ich denke du solltest nochmal grundlegend erläutern was du überhaupt vor hast...
 

max5432

Aktives Mitglied
Um etwas richtig darstellen zu können musst du erstmal wissen wie es kodiert ist. In obigem Fall scheinbar UTF-16, wenn der Inhalt verschieden kodiert ist hast du pech.

Klar. Nun, die Tatsache ist, dass ich nicht immer weiss, wie eben die Daten kodiert sind. Ich kann mich entweder damit abfinden, dass ich "Pech" habe, oder eben herauszufinden probieren, wie die Codierung aussieht. Es stimmt: mühsam und nicht gerade erfolgsversprechend.

Ich denke du solltest nochmal grundlegend erläutern was du überhaupt vor hast...

Ich bekomme eine Damp-Datei (Auszug aus dem Speicher), in der so ziemlich allerlei zu finden ist: diverse Datenkonstrukte und die diversesten Codierungen (nicht nur Unicode, ASCII usw.), sondern die von Hand gestrickten. Und aus diesem Chaos sollte ich möglichst viele Daten auslesen und sie so darstellen, dass man sie lesen kann! Da ich zur Zeit auch auf die Arabische Sprache gestossen bin, frage ich mich, wie ich einen solchen Text überhaupt auf Papier bringe, um es lesen zu können.

Mein Lösungsansatz: Ich probiere die extrachierten Inhalte in eine HTML-Datei zu schreiben (ص؜ usw.), da ich solche Inhalte in einem Browser (nach meiner Meinung) relativ gut darstellen kann. Die Sache ist jedoch inzwischen recht aufwändig geworden, da ich Daten in eine XML-Datei zuerst schreibe und anschliesend mit XSL die HTML-Datei erstelle. Der Aufwand ist um einiges höher geworden als ich gedacht habe, aber ich sehe im Moment keinen einfacheren Weg.

Vielen Dank für jedenTipp.
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
_user_q JavaFX Robot alle Unicode-Zeichen schreiben lassen können Allgemeine Java-Themen 12
J Unicode Darstellung mit 5 chars Allgemeine Java-Themen 9
E Compiler-Fehler Unicode Zeichen einlesen Allgemeine Java-Themen 1
L UTF8 to Unicode Allgemeine Java-Themen 9
mrBrown Unicode-WhiteSpaces aus String entfernen Allgemeine Java-Themen 14
S Input/Output Unicode Umwandlung Allgemeine Java-Themen 2
H Unicode ausgeben ohne Umwandlung - geht das? Allgemeine Java-Themen 3
L Problem bei ausführbarer jar Datei mit Unicode-Zeichen Allgemeine Java-Themen 4
J Unicode als String Allgemeine Java-Themen 6
R kopieren von Dateien und Verzeichnissen - UNICODE? Allgemeine Java-Themen 4
P JavaDoc und Backslashes: "Invalid unicode" Allgemeine Java-Themen 3
H Exponenten mit UNICODE Allgemeine Java-Themen 4
N Encoding Unicode Textfile Allgemeine Java-Themen 5
P Unicode-Sequenz (u1234) in Variable speichern und ausgeben Allgemeine Java-Themen 6
P Unicode-Problem: Griechische Buchstaben Allgemeine Java-Themen 11
J Unicode: cmd parameter (main args); exec params; filenames Allgemeine Java-Themen 2
Daniel_L ASCII in UniCode umwandeln? Allgemeine Java-Themen 14
Luma Unicode Steuerzeichen von druckbaren Zeichen trennen Allgemeine Java-Themen 10
L unicode-zeichen in ein txt-File schreiben Allgemeine Java-Themen 3
L unicode Allgemeine Java-Themen 5
F Unicode zu ASCII konvertieren Allgemeine Java-Themen 5
oliver1974 Wie ResourceBundles mit Unicode Zeichen korrekt einlesen? Allgemeine Java-Themen 4
I Eignung eines Zeichensatzes zur Kodierung eines Unicode-Str. Allgemeine Java-Themen 3
D Zeilenweises auslesen aus einer Unicode CSV-Datei Allgemeine Java-Themen 7
U unicode oder was? Allgemeine Java-Themen 14
R Abwärtskompatibilität des Unicode Allgemeine Java-Themen 2
R Unicode (Kyrillisch) Allgemeine Java-Themen 15
byte Unicode Sonderzeichen Allgemeine Java-Themen 2
B Unicode für Kreuz gesucht Allgemeine Java-Themen 2
H Unicode Darstellung in Java, spezielles Zeichen gesucht Allgemeine Java-Themen 4
S Unicode-Zeichen erstellen/ Kodierung Allgemeine Java-Themen 4
G Unicode file auslesen Allgemeine Java-Themen 11
C Unicode für Promille-Zeichen Allgemeine Java-Themen 5
U Unicode char kyrillisch Allgemeine Java-Themen 10
G Unicode eines Zeichens ermitteln Allgemeine Java-Themen 5

Ähnliche Java Themen

Neue Themen


Oben