Hi! Ich denke viele von euch sind dem Problem von Schriftsatzcodierung schon mal begegnet.
Ich bin Student, und wir sind zur Zeit an einem Projekt beschäftigt, bei dem Fußballnews vom Quelltext einer Webseite ausgelesen werden sollen.
Hierfür habe ich folgenden Ansatz gewählt:
In dem Beispiel wird der Quelltext einer Webseite auf der Konsole ausgegeben.
Dies funktioniert soweit auch einwandfrei. Jedoch entsteht bei dem dem Auslesen ein Kodierungsfehler:
Das ist ein Auszug aus den System.out's.
Zeichen wie 'ß', 'ö', 'ü' werden nicht erkannt und als Quadrate oder Fragezeichen dargestellt.
Kennt irgendjemand einen Weg, die Darstellung der Zeichen zu ermöglichen? Oder vielleicht kennt jemand einen anderen Weg für das Auslesen von Quelltext einer Webseite, bei der die Schriftkodierung dann auch der der deutschen Sprache entspricht, d.h. z.B. UTF-8 oder UTF-16?
Ich bin Student, und wir sind zur Zeit an einem Projekt beschäftigt, bei dem Fußballnews vom Quelltext einer Webseite ausgelesen werden sollen.
Hierfür habe ich folgenden Ansatz gewählt:
Java:
try{
URL url = new URL("http://www.beispiel-webseite.de");
InputStream is = url.openConnection().getInputStream();
BufferedReader reader = new BufferedReader(new InputStreamReader(is));
String line = null;
while((line = reader.readLine()) != null ){
System.out.println(line);
}
reader.close();
}
In dem Beispiel wird der Quelltext einer Webseite auf der Konsole ausgegeben.
Dies funktioniert soweit auch einwandfrei. Jedoch entsteht bei dem dem Auslesen ein Kodierungsfehler:
Java:
<category>Fu�ball</category>
Zeichen wie 'ß', 'ö', 'ü' werden nicht erkannt und als Quadrate oder Fragezeichen dargestellt.
Kennt irgendjemand einen Weg, die Darstellung der Zeichen zu ermöglichen? Oder vielleicht kennt jemand einen anderen Weg für das Auslesen von Quelltext einer Webseite, bei der die Schriftkodierung dann auch der der deutschen Sprache entspricht, d.h. z.B. UTF-8 oder UTF-16?
Zuletzt bearbeitet: