String encoding überprüfen

Status
Nicht offen für weitere Antworten.

Vitus

Mitglied
Hallo,

kennt jemand eine Möglichkeit, einen String auf ein bestimmtes Character Set Encoding hin zu überprüfen (beispielsweise ISO-8599-1)? Da heißt, der String darf keine anderen Zeichen enthalten.

Thx a lot,
Vitus
 

derDachs

Mitglied
Ich nehme an das machst du Zeichen für Zeichen und musst halt selbst wissen welche Zeichen in der jeweiligen ISO vorhanden sind..
for schleife von 0 bis Stringende und jedes Zeichen mit String.charAt
prüfen ob es in deine ISOVorschrift drin ist..
Also brauchst du auch einen String wo die Zeichen der IsoNorm drinstehen....

wenn also nur ABCDEFG7890 erlaubt ist legst du dir halt diesen String an und vergleichst jeden Buchstaben in dem Text mit diesen Buchstaben im String...

bis denne....
derDachs

mfG der Dachs...
 

foobar

Top Contributor
Ich kann mir nicht vorstellen, daß man auf ein bestimmtes Encoding testen kann, da es sich hierbei um eine Representatio handelt. D.h. im Grund ist ein String auch nur eine Folge von Bytes mit einem bestimmten Wert, denen durch das Encoding eben ein Zeichen zugeordnet wird. Woher soll der Rechner denn wissen was du haben willst? Die einzige Möglichkeit wäre, den kompletten String zu parsen und jedes Zeichen zu überprüfen.
 

Zilchinger

Mitglied
foobar hat vollkommen Recht. Das Überprüfen auf einen Zeichensatz ist nicht möglich.
Sprich man muß genau wissen, was man wo hinschickt, bzw was man von irgendwo her bekommt !!!
 

foobar

Top Contributor
@byto es geht um Encodings im Allgemeinen z.b. String s die man aus einer Datei, DB, Socket liest.
 

Vitus

Mitglied
Meines Erachtens sollte folgende Lösung möglich sein:

Zum prüfen, ob ein String einem Encoding entspricht könnte geprüft werden, in dem man den String encoded und schaut, ob das Ergebnis wieder dem String entspricht. Ansonsten muss in dem String ein Zeichen gewesen sein, welches encoded werden musste.

Liege ich hier falsch?
 

moormaster

Top Contributor
Vitus hat gesagt.:
Meines Erachtens sollte folgende Lösung möglich sein:

Zum prüfen, ob ein String einem Encoding entspricht könnte geprüft werden, in dem man den String encoded und schaut, ob das Ergebnis wieder dem String entspricht. Ansonsten muss in dem String ein Zeichen gewesen sein, welches encoded werden musste.

Liege ich hier falsch?

Und wenn der String keine Zeichen enthält, die sich unterscheiden in den einzelnen Kodierungen?
 

Leroy42

Top Contributor
Kurz und schmerzvoll: Es kann nicht gehen! :(

Jedes Encoding nutzt sämtliche möglichen Bytewerte.

Wenn z.b. der Bytewert 242 in einem Encoding ein 'ä' ist und
in einem anderen ein '€' und du in deinem Beispielstring diesen
Bytewert vorfindest, ohne zu wissen, welches Zeichen
an dieser Postion im String sein soll, ist es rein logisch
nicht möglich den String einem Encoding zuzuordnen, da beide
Repräsentationen möglich sind.

Nur wenn du den String zusätzlich in einem dir bekannten
Zeichensatz vorliegen hast (z.B. Unicode, UTF-8) ist es
machbar, über die Bytewerte, das Vorliegen eines bestimmten
Encodings nicht auszuschließen. Es kann dann aber immer
noch sein daß mehrere Encodings möglich sind. Z.B. dürften
sämtliche Encodings den String 'abcde' auf dieselbe Bytefolge abbilden.
 

moormaster

Top Contributor
Leroy42 hat gesagt.:
Kurz und schmerzvoll: Es kann nicht gehen! :(

Jedes Encoding nutzt sämtliche möglichen Bytewerte.

Wenn z.b. der Bytewert 242 in einem Encoding ein 'ä' ist und
in einem anderen ein '€' und du in deinem Beispielstring diesen
Bytewert vorfindest, ohne zu wissen, welches Zeichen
an dieser Postion im String sein soll, ist es rein logisch
nicht möglich den String einem Encoding zuzuordnen, da beide
Repräsentationen möglich sind.

Nur wenn du den String zusätzlich in einem dir bekannten
Zeichensatz vorliegen hast (z.B. Unicode, UTF-8) ist es
machbar, über die Bytewerte, das Vorliegen eines bestimmten
Encodings nicht auszuschließen. Es kann dann aber immer
noch sein daß mehrere Encodings möglich sind. Z.B. dürften
sämtliche Encodings den String 'abcde' auf dieselbe Bytefolge abbilden.

Und dennoch ist es möglich, das Encoding zu erraten. Der Texteditor ConText z.B. erkennt automatisch, ob meine .java Dateien das Unix Format benutzen oder ein anderes. Das versucht er wahrscheinlich an den Zeilenumbrüchen zu erkennen. Bis jetzt hat er das immer richtig erkannt; aber ich glaube bei sehr kurzen Dateien, die wenig "aussergewöhnliche" Zeichen benutzen, wird der Editor auch mal falsch liegen.

Am besten ist es, wenn man in seinen Programmen einfach den Zeichensatz einstellen kann und das Programm dann durchweg mit diesem arbeitet.
 

Leroy42

Top Contributor
moormaster hat gesagt.:
Und dennoch ist es möglich, das Encoding zu erraten.
Naja, erraten ist ja nicht das, was gefordert wurde...

moormaster hat gesagt.:
ob meine .java Dateien das Unix Format benutzen oder ein anderes. Das versucht er wahrscheinlich an den Zeilenumbrüchen zu erkennen.

Die Bytefolge für Zeichenumbruch ist BS-spezifisch und hat nichts mit den Encodings zu tun.
 
R

Roar

Gast
das einzige was du machen kannst, ist, soweit ich weiß, die ersten beiden bytes der datei zu überprüfen. wenn die datei mit utf-16 encodiert ist, lauten die nämlich FE FF. *schulternZuck*
 

byte

Top Contributor
Naja, ASCII sind 7bit und UTF8 eben 8bit pro Zeichen. Da kann man vielleicht noch über die Kodierung entscheiden, aber spätestens wenn Du zwei 8bit Kodierungen hast, wird es quasi unmöglich.

Versuch z.B. mal zwischen ISO-8859-1 und z.B. ISO-8859-2 zu unterscheiden -> geht nicht. :)
 

Leroy42

Top Contributor
moormaster hat gesagt.:
;) Aber ob ich mit UTF 8, Ansi, ... gespeichtert hab, kann er trotzdem zumindest erraten ;)

Anhand welcher Kriterien denn?

Woher soll das Programm denn erraten, welche Zeichen denn gemeint waren?
Der eine will hatte eben ein 'Ä' gespeichert, der andere ein '€' und der dritte ein
hebräisches Schriftzeichen.


Soll das Programm den Text analysieren und versuchen, gültige Wörter zu erkennen? :autsch:

Roar hat gesagt.:
das einzige was du machen kannst, ist, soweit ich weiß, die ersten beiden bytes der datei zu überprüfen. wenn die datei mit utf-16 encodiert ist, lauten die nämlich FE FF. *schulternZuck*

Also, Wenn UTF-16 ==> FEFF

Aber nicht

Wenn FEFF ==> UTF-16

Vielleicht ist es ja doch eine ISO-8859-1 codierte Datei und der Ersteller
wollte als erste Zeichen der Datei ja unbedingt dieses p und y (siehe die
letzten beiden Zeichen im folgenden Bild) in seiner Datei haben!

iso8859_1.gif


Wie ich schon schrieb: Es kann rein logisch nicht möglich sein!
 

moormaster

Top Contributor
Ich weiss wie gesagt nicht, woran das Programm die Kodierung genau festmacht; aber nach gewissen Kriterien sucht es sich eben eine Kodierung aus, die in den meisten Fällen zu passen scheint (mir ist es zumindest noch nicht untergekommen, dass es einmal merklich die "falsche" Kodierung genommen hat).

Sicherlich mag es logisch nicht eindeutig feststellbar sein. Vielleicht hat das Programm auch eine Art Prioritätsliste, welche Kodierung bevorzugt wird. Wenn dann gewisse (evtl. eher unübliche) Zeichen vorkommen, könnte sich die Priorität verändern, so dass eine andere Kodierung ganz oben steht. Wenn kein solches Zeichen gefunden wird, bleibt die Liste wie sie ist und es wird die noch immer ganz oben stehende Kodierung genutzt.

Das wäre so gaaanz ungefähr ein Ansatz, wie man die Kodierung erraten kann. 100%ig feststellen, kann man sie trotzdem nicht; weil die "unüblichen" Zeichen ja durchaus genau dort mit genau dieser Kodierung stehen sollten können, wo sie anzutreffen waren.
 

Leroy42

Top Contributor
moormaster hat gesagt.:
Wenn dann gewisse (evtl. eher unübliche) Zeichen vorkommen...

Dann definier' bitte mal "Eher unüblich" :shock:

Schließlich soll dies ja ein Algorithmus entscheiden/erkennen
und kein dahergelaufener nicht-deterministischer-Automat wie du und ich! :cool:
 

Leroy42

Top Contributor
Sorry, habe erst jetzt dein Post zuende gelesen :oops:

Dann sind wir ja doch einer Meinung.

Dein Vorschlag, eine Heuristik zu implementieren, wäre dann
natürlich eine ziemlich gute (vielleicht ausreichende) Annäherung.
 

Lim_Dul

Top Contributor
Wenn man sich auf die deutsche Sprache einschränkt, kann man Tefferquoten nahe bei 100% erzielen. Dazu reicht es, nach den UTF-* bzw. ISO-Kodierungen der deutschen Sonderzeichen (öüäß) zu suchen und das dazu passende Encoding zu verwenden. Dann dürfte man, sofern diese Sonderzeichen vorkommen, so gut wie nie falsch liegen.
 

byte

Top Contributor
Das würde ich so nicht unterschreiben. Wie gesagt, es steht kein ß in der Datei sondern ein Code, also eine Zahl. Erst die Interpretation dieser Zahl (je nach Kodierung) ergibt dann das das Zeichen. Die Codes sind halt nicht zwischen den verschiedenen Kodierungen disjunkt. Wenn in Kodierung A das ß den Code 17 hat, dann kann die 17 in Kodierung B vielleicht ein ganz anderes Zeichen sein.

In der Praxis gleichen sich sogar viele Encodings bis zu einem gewissen Grad. Zum Beispiel ISO-8859-1 vs Unicode (UTF-8). Einfach mal im Browser auf UTF-8 umstellen. Das meiste kann man immer noch lesen, ausser die deutschen Sonderzeichen.
 

Lim_Dul

Top Contributor
byto hat gesagt.:
Das würde ich so nicht unterschreiben. Wie gesagt, es steht kein ß in der Datei sondern ein Code, also eine Zahl. Erst die Interpretation dieser Zahl (je nach Kodierung) ergibt dann das das Zeichen. Die Codes sind halt nicht zwischen den verschiedenen Kodierungen disjunkt. Wenn in Kodierung A das ß den Code 17 hat, dann kann die 17 in Kodierung B vielleicht ein ganz anderes Zeichen sein.

In der Praxis gleichen sich sogar viele Encodings bis zu einem gewissen Grad. Zum Beispiel ISO-8859-1 vs Unicode (UTF-8). Einfach mal im Browser auf UTF-8 umstellen. Das meiste kann man immer noch lesen, ausser die deutschen Sonderzeichen.

Richtig. Deshalb schrieb ich ja, wenn ich mich a) auf die deutsche Sprache einschränke und b) ich ein ß in UTF-8 finde, dann kann ich von UTF-8 ausgehen. Finde ich das ß in ISO-8859-1/15, dann kann ich von ISO ausgehen. Die Wahrscheinlichkeit, dass eine deutsche Text-Datei als ISO gewünscht ist UND die Zeichen enthält, die in UTF-8 dem ß entsprechen, tendiert gegen 0.
 

Vitus

Mitglied
Nochmal langsam:

Ich habe einen String (in Java-UTF16) und möchte checken, ob dieser nur ISO-8599-1 Zeichen enthält.

Mein Gedanke ist, diesen in ISO-8599-1 umzuwandeln. Wenn ich jetzt wieder der gleiche String erhalte, sollte der ursprüngliche ISO-8599-1 entsprechen.

Liege ich hier falsch?
 

Leroy42

Top Contributor
Vitus hat gesagt.:
ob dieser nur ISO-8599-1 Zeichen enthält.

Dazu müßtest du aber erstmal ISO-8599-1 definieren. :shock:

Oder meintest du etwas ISO-8859-1. :cool:

Vitus hat gesagt.:
Mein Gedanke ist, diesen in ISO-8859-1 umzuwandeln. Wenn ich jetzt wieder der gleiche String erhalte, sollte der ursprüngliche ISO-8859-1 entsprechen.
Liege ich hier falsch?

Wenn du vorher weißt, daß du einen UTF-16 encodeten String hast geht das
natürlich.

Allerdings versagt deine Umwandlung, wenn der Originalstring Zeichen enthält,
die nicht in der Schnittmenge von UTF-16 und ISO-8859-1 liegen.

(Bei 'a', 'b', ..., 'z' ist z.B. alles OK. Es gibt aber (mit Sicherheite) ISO-8859-1 Zeichen die
in UTF-16 anders kodiert werden.)
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
C Problem mit encoding und String Suche Java Basics - Anfänger-Themen 6
P String und das encoding Java Basics - Anfänger-Themen 4
krgewb String mit Datumsangabe in Long umwandeln Java Basics - Anfänger-Themen 2
D String Groß/Kleinschreibung Ignorieren Java Basics - Anfänger-Themen 4
D Map<String, Integer> sortieren und der reinfolge nach die Glieder abfragen Java Basics - Anfänger-Themen 3
J Ähnlichen String in Liste finden Java Basics - Anfänger-Themen 6
Kartoffel_1 String transformation Java Basics - Anfänger-Themen 7
H String-Operation replace() - Zeichenkette verdoppeln Java Basics - Anfänger-Themen 2
K String analysieren Java Basics - Anfänger-Themen 27
Beowend String zu Date parsen Java Basics - Anfänger-Themen 1
Beowend String auf Satzzeichen überprüfen? Java Basics - Anfänger-Themen 6
H Liste nach String-Länge sortieren Java Basics - Anfänger-Themen 1
String in ArrayList umwandeln Java Basics - Anfänger-Themen 1
I Sass Compiler und String erhalten? Java Basics - Anfänger-Themen 7
Avalon String in Double bzw. Währung konvertieren Java Basics - Anfänger-Themen 6
T Methode akzeptiert String nicht Java Basics - Anfänger-Themen 18
F Arraylist<String>Ein Wort pro Zeile Java Basics - Anfänger-Themen 6
J Schlüsselworte Prüfen, ob ein bestimmtes, ganzes Wort in einem String enthalten ist. Java Basics - Anfänger-Themen 6
N String überprüfen Java Basics - Anfänger-Themen 3
E String zerlegen aus args Java Basics - Anfänger-Themen 1
M Long-Typ in String-Änderung führt zu keinem Ergebnis bei großer Zahl Java Basics - Anfänger-Themen 11
Ostkreuz String Exception Java Basics - Anfänger-Themen 8
W Items löschen aus String Array vom Custom Base Adapter Java Basics - Anfänger-Themen 2
MoxMorris Wie macht man String[] = String[] aus einer anderer Methode? Java Basics - Anfänger-Themen 18
J String Filter Java Basics - Anfänger-Themen 5
S String Array Buchstaben um einen gewissen Wert verschieben Java Basics - Anfänger-Themen 4
R Größter zusammenhängender Block gleicher Zeichen im String Java Basics - Anfänger-Themen 1
XWing Randomizer mit einem String Java Basics - Anfänger-Themen 2
D 2D Char Array into String Java Basics - Anfänger-Themen 2
H Cast von Float nach String klappt nicht Java Basics - Anfänger-Themen 12
I Zerlegen von String Java Basics - Anfänger-Themen 3
B Beliebiger String gegeben Suche Datum in String Java Basics - Anfänger-Themen 6
I String Java Basics - Anfänger-Themen 4
I API - zurückgegebener JSON String lesen und in Entity konvertieren Java Basics - Anfänger-Themen 2
H Zu langen String aufteilen - bequeme Methode? Java Basics - Anfänger-Themen 14
W String einer Textdatei in einzelne Stringobjekte pro Zeile aufteilen Java Basics - Anfänger-Themen 14
belana wie am besten 2D Array von String to Integer Java Basics - Anfänger-Themen 18
J Java To String Methode, Array mit For-Schleife Java Basics - Anfänger-Themen 2
M Kommandozeilenparamter als EINEN String werten Java Basics - Anfänger-Themen 5
M RandomAccessFile int und String gleichzeitig in einer Datei Java Basics - Anfänger-Themen 49
M Prüfen on eine Zahl im String enthalten ist Java Basics - Anfänger-Themen 3
Distanz zwischen zwei Zeichenfolgen in einem String bestimmen Java Basics - Anfänger-Themen 5
Substring in einem String finden Java Basics - Anfänger-Themen 13
BeginnerJava String mit vorgegebener Länge und Buchstaben erzeugen/ mit Leerstellen Java Basics - Anfänger-Themen 8
I Eindeutiger String mit maximaler Anzahl an Zeichen Java Basics - Anfänger-Themen 11
H Interface Wieso "List<String> list = new ArrayList<>[…]" Java Basics - Anfänger-Themen 4
JavaBeginner22 Integer in String umwandeln Java Basics - Anfänger-Themen 7
HolyFUT JSON String in Java Object schreiben - Anführungszeichen rauskriegen? Java Basics - Anfänger-Themen 17
Fodoboo131 RegEx- Umwandlung von String in ausführbares Objekt/ Befehl Java Basics - Anfänger-Themen 9
HolyFUT Input/Output Leerzeichen aus String entfernen - klappt nicht! Java Basics - Anfänger-Themen 13
viktor1 Methoden Methode schreiben static void readText (String filename) {...} zu WordHistogramSample.java Java Basics - Anfänger-Themen 13
ravenz Schleife mit for über String Array „zahlen“und prüfen ob Wert „a“ oder „b“ oder „c“ entspricht (mittels || ) Java Basics - Anfänger-Themen 4
G Position einer unbekannten 3-stelligen-Zahl in einem String finden Java Basics - Anfänger-Themen 15
T String Array Fehler beim Index Java Basics - Anfänger-Themen 3
H Erste Schritte Nach einer Zahl n soll n Mal der String untereinander ausgegeben werden Java Basics - Anfänger-Themen 3
X Datentypen String.equals funktioniert nicht Java Basics - Anfänger-Themen 5
Alen123 String wiederholen mit Schleifen Java Basics - Anfänger-Themen 1
A String split funktioniert nicht, wenn mehr als 1 Ziffer vor dem Zeichen steht nach dem er trennen soll? Java Basics - Anfänger-Themen 4
T String splitten Java Basics - Anfänger-Themen 3
sserio Schwimmen als Spiel. Problem mit to String/ generate a card Java Basics - Anfänger-Themen 4
J Datentypen String in File konvertieren funktioniert nicht Java Basics - Anfänger-Themen 4
T Platzhalter in String? Java Basics - Anfänger-Themen 14
M String mit Variable vergleichen Java Basics - Anfänger-Themen 9
I String Kombination erstellen anhand fortlaufender Zahl (Vertragsnummer) Java Basics - Anfänger-Themen 13
Fats Waller Compiler-Fehler Kann ich einen String und die Summe zweier Char Werte mittels der println Anweisung ausgeben Java Basics - Anfänger-Themen 4
M Wie kann eine Methode (string) eine andere Methode (void) mit zufälligen int-Werten aufrufen? Java Basics - Anfänger-Themen 4
P9cman Vokale in einem String überprüfen mittels Rekursion Java Basics - Anfänger-Themen 8
schredder Strings und reguläre Ausdrücke - Methode mit return string.matches Java Basics - Anfänger-Themen 5
R Ein Multidimensionales String Array initialisieren und Deklarieren Java Basics - Anfänger-Themen 2
H String Repräsentation eines Rechtecks mit Instanz-Methode Java Basics - Anfänger-Themen 8
Dorfschmied Kartesisches Produkt von zwei Liste mit Hashmaps<String,String> erstellen Java Basics - Anfänger-Themen 4
S String mit Int input vergleichen Java Basics - Anfänger-Themen 5
C String/Char-API Java Basics - Anfänger-Themen 13
U Char zu einem String machen Java Basics - Anfänger-Themen 1
B Anzahl Nullen uns Einsen in String ermitteln Java Basics - Anfänger-Themen 3
T Leerzeichen im String entfernen Java Basics - Anfänger-Themen 6
Jose05 Nullpointerexception bei Umwandlung von String zu int Java Basics - Anfänger-Themen 2
O Ich habe einen String und soll mit matches schauen, ob ein Buchstabe zu einer geraden ANzahl im String vorkommt, wie soll das gehen? Java Basics - Anfänger-Themen 7
M String beim einlesen formatieren Java Basics - Anfänger-Themen 12
N null in String replacen Java Basics - Anfänger-Themen 16
R Compiler-Fehler JTable mit XML befüllen | The constructor JTable(Object[], String[]) is undefined Java Basics - Anfänger-Themen 10
M Eclipse kennt keine String Klasse mehr Java Basics - Anfänger-Themen 1
M Frage zur Methode split der Klasse String Java Basics - Anfänger-Themen 32
D String mit int multiplizieren? Java Basics - Anfänger-Themen 16
H Überprüfen ob String Array leer ist Java Basics - Anfänger-Themen 4
A Korrigierte <String> Liste zurückgeben Java Basics - Anfänger-Themen 22
C In String, Buchstaben ersetzen durch andere Buchstaben Java Basics - Anfänger-Themen 26
Poppigescorn String mit mehreren Wörtern füllen? Java Basics - Anfänger-Themen 4
I String Expression mit Java validieren (true / false) Java Basics - Anfänger-Themen 34
B String - Wörter finden, welches Punkt und entsprechender Pre / Suffix hat? Java Basics - Anfänger-Themen 30
T Maximale Anzahl von Konsonanten im String Java Basics - Anfänger-Themen 6
H String verschlüsseln - eigener Algorithmus Java Basics - Anfänger-Themen 104
N Aus einem String die Anzahl der Vokale auslesen Java Basics - Anfänger-Themen 40
J Eintrag Combobox über einen String auswählen Java Basics - Anfänger-Themen 3
K mit String.splitt(",") ganzen Satz erhalten? Java Basics - Anfänger-Themen 3
K Wie String prüfen ob drei mal das gleiche Zeichen vorkommt? Java Basics - Anfänger-Themen 7
I Validation, ob String ein Wert aus einem Enum enthält Java Basics - Anfänger-Themen 3
D String und char in String speichern Java Basics - Anfänger-Themen 5
A ObservableList<String> Java Basics - Anfänger-Themen 6
I String nach Wort suchen Java Basics - Anfänger-Themen 6

Ähnliche Java Themen

Neue Themen


Oben