HttpURLConnection - Zeichensatz einstellen?

Status
Nicht offen für weitere Antworten.

der_Ben

Mitglied
Hallo,

über eine HttpURLConnection lese ich derzeit verschiedene Websites und XML-Seiten in StringBuffer ein.
Leider ergibt das bei Sonderzeichen Probleme...
Kann ich schon beim Einlesen einstellen, mit welcher Codetabelle das Eingelesene interpretiert werden soll? (bspw. "UTF-8" / "windows-1252") oder bleibt mir ein nachträgliches Suchen & Ersetzen nicht erspart? (bspw. .replace"&", "&")


MfG
der Ben
 

quippy

Bekanntes Mitglied
Schicke den Kram durch einen XML-Parser. Der tut das dann für Dich. Für HTML kannst Du mal den HTML Tidy anschauen, der einen HTML-Parser mitliefert bzw. aus HTML (x)HTML machen kann, was dann jeder beliebige XML Parser wieder verstehen sollte.
 

der_Ben

Mitglied
Also irgendwie will das nicht so ganz gelingen.
Ist es möglich einen String der verschiedenste Ampersand Codes beinhaltet als z.B.
Code:
String myString = "&";
automatisch (also ohne .replace()) in den Inhalt "&" konvertieren lassen?
 

quippy

Bekanntes Mitglied
Das "&" etc. sind keine Darstellungen aus einem Zeichensatz, so daß man mit einer Zeichensatzkonvertierung was ausrichten könnte. Diese "benannten Zeichen" (Entities) sind eine Sonderlocke bei XML, wenn kein UTF-8 oder so als Codierung verwendet werden kann - oder aber, um Kodierungsproblemen aus dem Weg zu gehen.

Hier und auch hier steht da noch was zu.

Wenn Du das durch einen XML-Parser schiebst (was aber mit purem HTML nicht geht, da es nicht "wellformed" ist!!!), werden die Zeichen beim Transformieren korrekt ausgegeben, da Java ja Unicode kann.
Da Du HTML parsen müßtest, habe ich Dir den HTML Tidy ans Herz gelegt, der Dir da helfen kann.

Alternativ bleibt Dir nur eines übrig: selbst die Transformation durchzuführen. Weiteres Beispiel!
 

der_Ben

Mitglied
Yeah, das Apache Ding funktioniert gut... hab ich die Apache Lizenz richtig verstanden? Ich darfs unmodifiziert verwenden, ohne etwas zu erwähnen zu müssen?!
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
D Twitch API mit HttpURLConnection läuft nicht? Allgemeine Java-Themen 0
S Rückgabe einer HttpURLConnection für eine Seite einlesen bei der man eingeloggt ist..? Allgemeine Java-Themen 5
F HttpURLConnection und Authenticator Allgemeine Java-Themen 9
J in einer httpURLconnection lesen und schreiben Allgemeine Java-Themen 4
dereki2000 Eigenen Zeichensatz benutzen Allgemeine Java-Themen 7
S Zeichensatz im Betreff von Mails Allgemeine Java-Themen 7
C Java-Dateien in einheitlichen Zeichensatz umwandeln Allgemeine Java-Themen 10
G Random zeichensatz Allgemeine Java-Themen 2
C Verschlüsslung mit festen Zeichensatz Allgemeine Java-Themen 3
H String - Hat welchen Zeichensatz? Allgemeine Java-Themen 6
M Zeichensatz Probleme Allgemeine Java-Themen 4
K Zeichensatz in UTF8 konvertieren Allgemeine Java-Themen 7
L Türkischer Zeichensatz Allgemeine Java-Themen 4
T Probleme mit dem Zeichensatz Allgemeine Java-Themen 2
B Zeichensatz festlegen Allgemeine Java-Themen 3
thE_29 Kompletten Zeichensatz aendern Allgemeine Java-Themen 8
T Anderer Zeichensatz für String Allgemeine Java-Themen 35
thE_29 Deutscher Zeichensatz auf englischem Linux. Allgemeine Java-Themen 5
ms_cikar RS232 Serielle Baudrate automatisch einstellen Allgemeine Java-Themen 1
C Eclipse einstellen, dass eine bestimmte JDK benutzt werden soll Allgemeine Java-Themen 3
H java.library.path mit einer Batch-Datei einstellen Allgemeine Java-Themen 3
GUI-Programmer Java Mail - Proxy für Verbindung einstellen Allgemeine Java-Themen 2
N Gridbaglayout - Abstände zwischen Komponenten einstellen Allgemeine Java-Themen 2
P SLF4J Logging Level einstellen Allgemeine Java-Themen 2
C system.out einstellen Allgemeine Java-Themen 8
B Look and Feel einstellen Allgemeine Java-Themen 5
F jvm; Xmx einstellen Allgemeine Java-Themen 4
Q Programme ausführen Parameter einstellen Allgemeine Java-Themen 9
N Proxy einstellen Allgemeine Java-Themen 2

Ähnliche Java Themen

Neue Themen


Oben