Probleme beim auslesen von Quelltext (HTML)

ahretour · 25. Mai 2014

Hi! Ich denke viele von euch sind dem Problem von Schriftsatzcodierung schon mal begegnet.

Ich bin Student, und wir sind zur Zeit an einem Projekt beschäftigt, bei dem Fußballnews vom Quelltext einer Webseite ausgelesen werden sollen.

Hierfür habe ich folgenden Ansatz gewählt:

Java:

try{
      URL url = new URL("http://www.beispiel-webseite.de");
      InputStream is = url.openConnection().getInputStream();
            
      BufferedReader reader = new BufferedReader(new InputStreamReader(is));
      String line = null;
      while((line = reader.readLine()) != null ){
           System.out.println(line);
      }
      reader.close();
}

In dem Beispiel wird der Quelltext einer Webseite auf der Konsole ausgegeben.
Dies funktioniert soweit auch einwandfrei. Jedoch entsteht bei dem dem Auslesen ein Kodierungsfehler:

Java:

<category>Fu�ball</category>

Das ist ein Auszug aus den System.out's.

Zeichen wie 'ß', 'ö', 'ü' werden nicht erkannt und als Quadrate oder Fragezeichen dargestellt.

Kennt irgendjemand einen Weg, die Darstellung der Zeichen zu ermöglichen? Oder vielleicht kennt jemand einen anderen Weg für das Auslesen von Quelltext einer Webseite, bei der die Schriftkodierung dann auch der der deutschen Sprache entspricht, d.h. z.B. UTF-8 oder UTF-16?

stg · 25. Mai 2014

Java:

      BufferedReader reader = new BufferedReader(new InputStreamReader(is, "UTF-8"));

Löst das dein Problem?

ahretour · 25. Mai 2014

stg hat gesagt.:
Java:

BufferedReader reader = new BufferedReader(new InputStreamReader(is, "UTF-8"));

Löst das dein Problem?

Nein, leider nicht. Ich glaube das Problem liegt an dem InputStream, der von der Klasse URL kommt.
Die Kodierung dieses InputStreams ist wohl nicht UTF-8/UTF-16.

Ich schätze was ich bräuchte ist eine Alternative Lösung um den Quelltext auszulesen.

Hoffe jemand hat sich mit sowas schon mal beschäftigt

Ruzmanz · 25. Mai 2014

Die Codierung muss im HTML-Quelltext hinterlegt sein, sonst wüsste der Browser auch nicht, was er damit anfangen soll. Beim Java-Forum.org findet man z.B. folgenden Eintrag:

<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" />

Gibt den Link oder suche die Codierung selbst. Vorher musst du eigentlich nicht um Hilfe bitten, da man sonst nur blind rumraten kann und die "richtige" Lösung evtl. nur nicht funktioniert, weil du die falsche Codierung genommen hast.

ahretour · 25. Mai 2014

Ruzmanz hat gesagt.:
Die Codierung muss im HTML-Quelltext hinterlegt sein, sonst wüsste der Browser auch nicht, was er damit anfangen soll. Beim Java-Forum.org findet man z.B. folgenden Eintrag:

Gibt den Link oder suche die Codierung selbst. Vorher musst du eigentlich nicht um Hilfe bitten, da man sonst nur blind rumraten kann und die "richtige" Lösung evtl. nur nicht funktioniert, weil du die falsche Codierung genommen hast.

Hi! Es lag tatsächlich an der UTF-8 Kodierung. Hätte nicht gedacht dass ä,ö,ü usw. nicht in UTF8 intergiert sind

Habe einfach statt UTF-8, das hier benutzt:

Java:

BufferedReader reader = new BufferedReader(new InputStreamReader(is, "ISO-8859-1"));

Und das Problem war gelöst!

Danke!!

stg · 25. Mai 2014

Das liegt nicht daran, dass ä,ö,ü,... nicht in UTF-8 enthalten sind (das ist nämlich sehr wohl der Fall) sondern schlicht daran, dass auf der Seite eine andere Kodierung verwendet wurde..

	Titel	Forum	Antworten	Datum
S	Probleme beim Auslesen einer Liste	Allgemeine Java-Themen	8	15. Jun 2012
C	Probleme beim Erstellen eines runnable-jar files	Allgemeine Java-Themen	1	22. Feb 2023
B	Java Reflection Probleme beim wehcselseitigen Referenzieren zweier Klassen/Objekte	Allgemeine Java-Themen	14	23. Jul 2022
B	Compiler-Fehler Probleme beim Kompilieren mit Jsoup	Allgemeine Java-Themen	8	5. Nov 2021
V	Threads Probleme beim Aufrufen von Methoden einer anderen Klasse (Threads)	Allgemeine Java-Themen	14	6. Jan 2020
B	Input/Output Probleme beim Ausführen von Shell-Befehlen mit Java	Allgemeine Java-Themen	28	5. Jan 2019
J	Probleme beim einbinden von Zip4j library	Allgemeine Java-Themen	6	30. Dez 2018
F	SQLite mit Java / Probleme beim INSERT Befehl	Allgemeine Java-Themen	4	6. Apr 2018
S	Eclipse Probleme beim Implementieren / Ausführen von jUnit 5-Test Suites	Allgemeine Java-Themen	14	6. Mrz 2018
A	Probleme beim Verstehen einer Aufgabenstellung	Allgemeine Java-Themen	11	3. Dez 2017
	Probleme beim Mocken	Allgemeine Java-Themen	6	20. Mrz 2017
R	probleme beim starten von jar unter linux	Allgemeine Java-Themen	2	11. Apr 2016
M	Probleme beim rechnen, bei Zahlen mit führenden Nullen.	Allgemeine Java-Themen	7	8. Okt 2015
E	JCuda-0.6.5 Probleme beim ausführen der Datei	Allgemeine Java-Themen	0	1. Mrz 2015
W	JNDI - LDAP - Probleme beim editieren von Usern	Allgemeine Java-Themen	0	21. Jan 2015
N	Zahlensysteme umrechnen; Probleme beim Umwandeln	Allgemeine Java-Themen	4	7. Dez 2014
M	3D-Grafik Probleme beim drehen von Objekten	Allgemeine Java-Themen	9	9. Nov 2012
H	Probleme beim Erstellen einer txt. Datei	Allgemeine Java-Themen	7	12. Mrz 2012
S	Probleme beim Start von jar Datein	Allgemeine Java-Themen	15	26. Sep 2011
S	Probleme beim Compilen	Allgemeine Java-Themen	8	26. Aug 2011
N	Probleme mit Umlauten beim Einlesen	Allgemeine Java-Themen	6	25. Apr 2011
P	Probleme beim Signieren	Allgemeine Java-Themen	2	30. Mrz 2011
D	Probleme beim schreiben / lesen in TreeMap	Allgemeine Java-Themen	9	24. Aug 2010
S	Probleme beim Anzeigen des Dateiinhalts	Allgemeine Java-Themen	6	27. Jun 2010
O	Probleme beim vergleichen von 2 Datumsangaben	Allgemeine Java-Themen	2	12. Okt 2009
	Probleme beim Rechnen mit BigDecimal	Allgemeine Java-Themen	5	29. Aug 2009
V	Probleme beim Drucken mehrerer PDF's	Allgemeine Java-Themen	17	9. Mrz 2009
E	Probleme beim Umstieg auf Version 1.6.0_12	Allgemeine Java-Themen	4	6. Mrz 2009
J	Java Plugin probleme beim Laden?	Allgemeine Java-Themen	3	21. Nov 2008
V	Probleme beim Lesen mit readObject -> InvalidClassExcepti	Allgemeine Java-Themen	3	23. Okt 2008
D	Probleme beim Umstellen von iText 1.4.4 auf Version 2.1.2	Allgemeine Java-Themen	5	25. Jun 2008
G	Probleme beim Sichern von Properties	Allgemeine Java-Themen	2	22. Aug 2007
W	Probleme beim Ausführen einer Java Klasse auf Kommandozeile	Allgemeine Java-Themen	17	1. Mrz 2007
S	Probleme beim Einstieg	Allgemeine Java-Themen	3	4. Nov 2006
F	Probleme beim speichern einer xml datei mit jdom	Allgemeine Java-Themen	5	9. Okt 2006
D	Probleme beim FAQ (JTextField: Dokumentarten)	Allgemeine Java-Themen	5	15. Jun 2006
B	probleme beim compilen/decompilen	Allgemeine Java-Themen	4	18. Mai 2006
G	Probleme beim Mail-Api mit BCC	Allgemeine Java-Themen	2	24. Feb 2006
M	Probleme beim ausführen meiner Klasse	Allgemeine Java-Themen	8	9. Sep 2005
G	probleme beim sortieren einer ArrayList	Allgemeine Java-Themen	8	1. Apr 2005
G	Probleme beim Entzippen	Allgemeine Java-Themen	4	15. Dez 2004
G	jdk1.5 Probleme beim Installieren unter Win	Allgemeine Java-Themen	2	13. Dez 2004
J	Probleme mit der CommApi beim ProgrammStart über Konsole	Allgemeine Java-Themen	2	8. Dez 2004
P	Probleme beim Einlesen einer TXT/CSV-Datei aus einem JAR	Allgemeine Java-Themen	7	5. Nov 2004
C	Probleme beim Starten eines Java-Programms	Allgemeine Java-Themen	2	14. Apr 2004
E	Probleme beim Zugriff auf verschachtelte Vektoren	Allgemeine Java-Themen	16	21. Jan 2004
G	Probleme beim Verbinden auf einen Notes 5 Server	Allgemeine Java-Themen	3	5. Sep 2003
S	Umstellung von File auf Path - Probleme mit Stream	Allgemeine Java-Themen	5	16. Dez 2022
C	Probleme mit javax.mail.Session	Allgemeine Java-Themen	8	14. Nov 2022
M	tomcat probleme	Allgemeine Java-Themen	1	18. Okt 2022
N	Division macht Probleme	Allgemeine Java-Themen	14	18. Aug 2022
	Probleme mit relativem Dateipfad	Allgemeine Java-Themen	1	6. Jul 2022
G	Geotools Probleme nach PC-Wechsel	Allgemeine Java-Themen	6	25. Apr 2022
	GUI Probleme	Allgemeine Java-Themen	16	26. Mrz 2022
C	Probleme mit dem WindowBuilder	Allgemeine Java-Themen	3	21. Mrz 2022
P	Selenium . Probleme ein Iron Icon Element anzusprechen	Allgemeine Java-Themen	2	24. Feb 2022
K	VisualVM Profiling Remote Probleme	Allgemeine Java-Themen	1	13. Jan 2021
O	Leerzeichen und Umlaute im Pfad einer Java Applikation machen Probleme	Allgemeine Java-Themen	13	10. Nov 2020
M	Probleme bei Eclipse wenn ich entpacke	Allgemeine Java-Themen	15	31. Okt 2020
D	Regex Probleme	Allgemeine Java-Themen	2	26. Feb 2020
M	Probleme jar datei.	Allgemeine Java-Themen	2	16. Feb 2020
L	Vererbung Verständnis Probleme Vererbung	Allgemeine Java-Themen	2	12. Feb 2020
	Probleme mit OpenAL	Allgemeine Java-Themen	0	31. Jan 2020
V	Compiler-Fehler Online Compiler Probleme	Allgemeine Java-Themen	4	1. Dez 2019
M	Probleme mit Negamax-Algorithmus	Allgemeine Java-Themen	29	6. Apr 2019
M	Probleme mit BigDecimal	Allgemeine Java-Themen	1	25. Mrz 2019
T	Probleme mit NumberFormat	Allgemeine Java-Themen	5	22. Jan 2019
J	Probleme exe-Start mit Task Scheduler	Allgemeine Java-Themen	1	18. Jan 2019
F	Variablen Palindromzahl (Probleme mit Methode)	Allgemeine Java-Themen	9	6. Nov 2018
K	Data Konverter - Probleme mit Byte[] Kodierung	Allgemeine Java-Themen	3	5. Nov 2018
T	Probleme mit dem Pfad zum Propertie file	Allgemeine Java-Themen	7	21. Sep 2018
H	Swing HashMap zu Tabelle macht mir Probleme	Allgemeine Java-Themen	4	16. Jul 2018
	Interpreter-Fehler Probleme mit Arrays.toString	Allgemeine Java-Themen	7	29. Mai 2018
J	Erste Schritte Probleme mit der Hauptklasse	Allgemeine Java-Themen	14	5. Apr 2018
J	Tetris Probleme bei Klassen	Allgemeine Java-Themen	14	21. Mrz 2018
J	MinMax VierGewinnt Probleme	Allgemeine Java-Themen	22	16. Mrz 2018
J	Probleme mit CodeCoverage und Lombok Equals	Allgemeine Java-Themen	1	14. Mrz 2018
R	Snake Probleme	Allgemeine Java-Themen	2	21. Feb 2018
	3D Objekt Translation basierend auf Rotation (Probleme mit Z Rotation)	Allgemeine Java-Themen	0	24. Nov 2017
	Druck Probleme mit PDF dateien	Allgemeine Java-Themen	4	21. Nov 2017
G	Ant Probleme bei einer Installation die Apache ant+ivy verwendet	Allgemeine Java-Themen	14	6. Apr 2017
E	TableView Probleme	Allgemeine Java-Themen	7	1. Apr 2017
S	Kaffemaschine Programmierung Probleme	Allgemeine Java-Themen	2	5. Jan 2017
K	Threads Runtime und Process Probleme	Allgemeine Java-Themen	3	9. Dez 2016
S	Probleme mit unterschiedlichen Java-Versionen (Mac OS X 10.11)	Allgemeine Java-Themen	0	3. Dez 2016
S	Event Handling keyPressed()-Probleme	Allgemeine Java-Themen	2	10. Jul 2016
	Große und seltsame Probleme nach Java-Update auf V1.8.0_91	Allgemeine Java-Themen	3	20. Apr 2016
P	Probleme mit Grafik (Java)	Allgemeine Java-Themen	6	20. Apr 2016
H	Probleme mit DAY_OF_WEEK	Allgemeine Java-Themen	4	26. Mrz 2016
	Probleme mit NullPointerException	Allgemeine Java-Themen	2	20. Mrz 2016
E	Probleme mit nextInt() und Exception	Allgemeine Java-Themen	35	16. Feb 2016
	Probleme mit AWT-EventQueue: ArrayList Elemente hinzufügen	Allgemeine Java-Themen	1	30. Jan 2016
D	Performance-Probleme mit Joda-Time	Allgemeine Java-Themen	3	29. Dez 2015
	Probleme mit Encrypting	Allgemeine Java-Themen	10	30. Aug 2015
M	Probleme mit Schriftarten PDFBox	Allgemeine Java-Themen	3	10. Aug 2015
J	Probleme mit der Java-Runtime	Allgemeine Java-Themen	10	10. Jun 2015
G	Probleme mit BufferedWriter und URL	Allgemeine Java-Themen	4	24. Mai 2015
S	Probleme mit meinem MacBook Pro DRINGEND HILFE erbeten!	Allgemeine Java-Themen	17	12. Apr 2015
	Interpreter-Fehler Probleme mit Rekursion - StackOverflowError	Allgemeine Java-Themen	8	11. Mrz 2015
M	Runtime.exec() verursacht auf manchen Systemen Probleme - Ursache unklar	Allgemeine Java-Themen	2	7. Feb 2015

Probleme beim auslesen von Quelltext (HTML)

ahretour

Mitglied

stg

Top Contributor

ahretour

Mitglied

Ruzmanz

Top Contributor

ahretour

Mitglied

stg

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen