Unicode

Status
Nicht offen für weitere Antworten.
B

blub85

Gast
Hallo!

Wir haben folgende Aufgabe zu lösen:

Es soll eine Klasse namens Words erstellt werden, mit deren Hilfe Informationen zu den Wörtern in Texten ermittelt werden können. Die Texte enthalten beliebige Unicode-Zeichen im Bereich zwischen \u0000 bis \u007E . Als Worttrenner dienen ausschließlich die folgenden Zeichen: das Leerzeichen \u0020, das Tabulatorzeichen \t, die Zeilenschaltung \n und der Seitenumbruch \f. Die Wörter zu einem Text erhält man also, indem man den Text an allen Worttrennern zerlegt. Dabei sollen keinen leeren Wörter entstehen, wenn mehr als zwei Worttrenner aufeinanderfolgen.

Ich habe dazu, bzw. über den UniCode folgende Fragen:

1)

Der Text enthält Zeichen zwischen "\u0000 bis \u007E".

Versuch ich beisielsweise:

Code:
char blub = '\u0000';
System.out.println((char) blub);

Zeigt er mir kein reguläres zeichen an, sondern so eine Art Quadrat. Liegt der Fehler an mir, oder ist das am Schluss sogar das Zeichen, das man mit \u0000 ansprechen kann ??

2)

Wenn ich nun den Text durchgehe (beispielsweise mit text.charAt(i) und ner for-schleife auf i), wie kann ich dann überprüfen ob er einen Zeilensprung drinnen hat ?? Das leerzeichen hat ja "einen Index zum Ansprechen", nämlich }\u0020. Wie kann ich die andern aufgezählten Sachen (\t, \n und \f) "erkennen"?

Vielen Dank für Euer Bemühen!!
 

Noar

Bekanntes Mitglied
Zu 1:

Am besten du schnappst dir eine Übersicht, wie z.B.: http://unicode.org/charts/PDF/U0000.pdf, dort sind alle von dir zu nutzenden Zeichen enthalten. Da kannst du dann schauen, ob dein Ergebnis stimmt.

Bei \u0000 handelt es sich um ein Steuerzeichen, daher die "merkwürdige" Darstellung.

Zu2:
Auch auch Tabulator, Newline etc. lassen sind in Unicode als Steuerzeichen enthalten. Sind auch in der oben genannten Übersicht zu finden.

Hoffe, das hilft.
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
Salo Zusammengesetztes Unicode Java Basics - Anfänger-Themen 15
D Unicode im Hexadezimalsystem Java Basics - Anfänger-Themen 1
A Input/Output Input eingabe in unicode übersetzen Java Basics - Anfänger-Themen 3
F charAt-Methode liefert falsche Unicode-Werte Java Basics - Anfänger-Themen 8
U Unicode - ? Java Basics - Anfänger-Themen 3
P Zahlen als Unicode darstellen Java Basics - Anfänger-Themen 2
F Unicode beim Lesen und Schreiben per java.io.* Java Basics - Anfänger-Themen 9
0 "Invalid Unicode" Java Basics - Anfänger-Themen 2
M Import Unicode Textfile Java Basics - Anfänger-Themen 10
A Unicode Java Basics - Anfänger-Themen 3
K Java String UNICODE in DB UTF-8 Feld einfügen Java Basics - Anfänger-Themen 3
kulturfenster Char und Unicode Java Basics - Anfänger-Themen 2
J Unicode-Textdatei lesen Java Basics - Anfänger-Themen 7
H short in unicode umwandeln Java Basics - Anfänger-Themen 5
R Unicode-Wert in Binär und Dezimal umformen - kleines Problem Java Basics - Anfänger-Themen 1
G ASCII -> Unicode ? Java Basics - Anfänger-Themen 5
R Problem bei Ausgabe von Unicode-Zeichen Java Basics - Anfänger-Themen 6
G Aus int das unicode char zeichen lesen Java Basics - Anfänger-Themen 3
D Unicode für mathematische/statistische Zeichen. Java Basics - Anfänger-Themen 3
T Textdateien mit Unicode-Zeichen kopieren Java Basics - Anfänger-Themen 2
saxman Unicode aus Textdatei einlesen und wieder abspeichern Java Basics - Anfänger-Themen 13
D Unicode in Html Java Basics - Anfänger-Themen 4
I Probleme mit String Byte[] und Unicode Java Basics - Anfänger-Themen 15
R Unicode ausgeben: für b "u0062" ausgeben Java Basics - Anfänger-Themen 5
I Zahlen in Unicode konvertieren Java Basics - Anfänger-Themen 37
G mit Strings rechnen (Unicode) Java Basics - Anfänger-Themen 15
M Buchstabe zu Unicode Java Basics - Anfänger-Themen 3
M Byte InputStream zu Zeichenformat Unicode bzw String konvert Java Basics - Anfänger-Themen 5
S HTML Sonderzeichen in Unicode wandeln Java Basics - Anfänger-Themen 5
T Unicode StringBuffer -> String = unleserlich Java Basics - Anfänger-Themen 7
S HTML mit num. Unicode Notation (was:Probleme bei Encoding) Java Basics - Anfänger-Themen 7
G Unicode in Java Java Basics - Anfänger-Themen 2

Ähnliche Java Themen

Neue Themen


Oben