HTML Code, Umlaute werden nicht richtig dargestellt

Waffeln

Mitglied
Hallo Leute,
ich habe da ein Problem. Und zwar will ich mit Hilfe meines Programms eine Seite im Internet durchsuchen und teile von Text als String bearbeiten. Wie auch immer, ich will hier ja jetzt nicht erzählen was mein Programm alles kann, ich brauche nur Hilfe für ein kleines Problem.

Der folgende Code holt mir den Quelltext einer Internetseite:

Java:
	public String fetchPage(String url) {
		StringBuilder sb = new StringBuilder();
		  
		try {
			Scanner scanner = new Scanner(new URL(url).openStream(), "utf-8");
			while (scanner.hasNextLine()) {
		  	sb.append(scanner.nextLine() + "\n");
			}
		scanner.close();		  
		}
		catch (MalformedURLException e) {
			e.printStackTrace();
		}
		catch (IOException e) {
			e.printStackTrace();
		}
	
		String text = sb.toString();

		return text;
	}

Das Problem besteht darin, dass die Umlaute nicht richtig "importiert" werden. Für ü steht da z.B ü. Ich hab schon den ganzen tag im Internet nach einer Lösung gesucht um das umzuwandeln, aber nichts passendes gefunden.
Wenn ich auf der jeweiligen Internetseite den Quelltest anzeigen lasse, werden mir die Umlaute auch nicht richtig angezeigt, aber farblich schonmal markiert.

Kann mir jemand helfen? ;(
 

turtle

Top Contributor
Die Console kann offensichtlich keine UTF-8 Kodierung.

In Eclipse kannst du das im Common-Tab der RunConfiguration umstellen.
 

Waffeln

Mitglied
Hab ich mal auf utf-8 umgestellt, funktioniert nicht.
Dann hab ich mal den Standard (MacRoman) in meinem Programm eingesetzt, funktioniert auch nicht...
 

Waffeln

Mitglied
Ich hab mal testweise ein Codeschnipsel hinzugefügt:

Java:
System.out.println("äöüÄÖÜ");

Und da passt die Ausgabe. Also es muss ja irgendwie an der Eingabe scheitern :bahnhof:
 

Ruzmanz

Top Contributor
- Macht Groß- und Kleinschreibung bei dem String einen Unterschied? Ich kenne das nur als "UTF-8".
- Sicher, dass es ein UTF-8 Stream ist? Viele Webseiten verwenden auch ISO-8859-1, wie z.B. das Forum:
Code:
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" />

PS: Habe die Frage nur überflogen ... &uuml; hat nichts mit der Codierung zu tun. Das wird in HTML als Ü interpretiert. Unabhängig von UTF-8. Wenn die Webseite das direkt im Quelltext stehen hat, muss du es "manuell" ersetzen.
 
Zuletzt bearbeitet:

Maskin

Mitglied
Nun ja, vielleicht kommen diese Zeichen direkt von der Webseite.
Zeichen Ersetzung
ä &auml;
Ä &Auml;
ö &ouml;
Ö &Ouml;
ü &uuml;
Ü &Uuml;
ß &szlig;

Du könntest diese ja beim parsen wieder ersetzen.
 

Waffeln

Mitglied
Scheint dann wohl wirklich so eingelesen zu werden, aber wie macht das ein Browser? Der kriegt ja auch nur diesen Buchstabenbrei und wandelt ihn in richtige Umlaute um :bahnhof:

Dann werde ich die wohl wirklich erst selbst umwandeln müssen, oder hat hier jemand nen codeschnipsel für mich übrig der das macht? Dost muss ich wohl erstmal googlen :rtfm:

//Edit:
LÖSUNG
Danke für die "Hilfe" wäre nach ein paar Tagen wohl selbst drauf gekommen. Hab jetzt einfach alle Umlaute durch richtige ersetzt:

Java:
		gesuchterText = gesuchterText.replace("&auml;","ä");
		gesuchterText = gesuchterText.replace("&Auml;","Ä");
		gesuchterText = gesuchterText.replace("&uuml;","ü");
		gesuchterText = gesuchterText.replace("&Uuml;","Ü");
		gesuchterText = gesuchterText.replace("&ouml;","ö");
		gesuchterText = gesuchterText.replace("&Ouml;","Ö");
		gesuchterText = gesuchterText.replace("&szlig;","ß");

Keine Ahnung ob das Effizient ist, aber es funktioniert erstmal. :D
 
Zuletzt bearbeitet:
Ähnliche Java Themen
  Titel Forum Antworten Datum
I HTML Code säubern Java Basics - Anfänger-Themen 4
B HTML Datei einlesen und HTML Code in String wandeln Java Basics - Anfänger-Themen 19
B HTML Code in XML speichern Java Basics - Anfänger-Themen 3
B HTML Code / Seite auslesen und JAVA Objekte erstellen Java Basics - Anfänger-Themen 12
B HTML Code drucken Java Basics - Anfänger-Themen 4
I HTML Code in Bild (transparent) konvertieren Java Basics - Anfänger-Themen 0
A HTML-Code auslesen und mit einem Wert in der property-Datei vergleichen Java Basics - Anfänger-Themen 2
R Pattern bzw. Regex HTML-Code Java Basics - Anfänger-Themen 10
StupidAttack Html Code durchsuchen Java Basics - Anfänger-Themen 2
H HTML Code generieren Java Basics - Anfänger-Themen 9
C HTML-Code Java Basics - Anfänger-Themen 8
I Html Code in jFrame Java Basics - Anfänger-Themen 19
hdi HTML code geht nicht bei JEditorPane Java Basics - Anfänger-Themen 5
K HTML Code einrücken Java Basics - Anfänger-Themen 5
M HTML-Code in Strings Java Basics - Anfänger-Themen 7
D HTML code in java generieren. Java Basics - Anfänger-Themen 6
D HTML Code einlesen und nach Links parsen Java Basics - Anfänger-Themen 10
M HTML-Code in einem String o.ä. speichern ?! Java Basics - Anfänger-Themen 7
W Javadoc HTML erzeugen mit allen dependency Java Basics - Anfänger-Themen 11
M html-seite drucken (gerendert) Java Basics - Anfänger-Themen 3
B HTML File einlesen inkl. Bilder? Java Basics - Anfänger-Themen 2
K Erstes kleines Spieleprojekt - Java GUI in HTML einbinden Java Basics - Anfänger-Themen 3
B String nach HTML formatieren Java Basics - Anfänger-Themen 9
S HTML-Quelltext hinter HTTPS Java Basics - Anfänger-Themen 1
J Input/Output Input Buttons Html mit JSP Java Basics - Anfänger-Themen 3
E HTML in Java einbinden oder JavaScript? Java Basics - Anfänger-Themen 5
D Mit Java HTML bzw Javascript auslesen Java Basics - Anfänger-Themen 1
G Servlet - externe HTML (URL) auslesen Java Basics - Anfänger-Themen 1
S Text aus einer HTML Datei auslesen Java Basics - Anfänger-Themen 1
krgewb Input/Output Umlaute in generierter HTML-Datei Java Basics - Anfänger-Themen 7
N Status-Log - HTML Java Basics - Anfänger-Themen 12
C Methoden Welche JSoup Methoden Und Parameter für diese HTML Tags Java Basics - Anfänger-Themen 4
I Meta Tags vergleichen mit Html Vorgabe Java Basics - Anfänger-Themen 8
D HTML Manipulation Navigation Java Basics - Anfänger-Themen 1
Z Html Element aus der Webseite auslesen Java Basics - Anfänger-Themen 1
D Erste Schritte HTML aus JEditorPane drucken Java Basics - Anfänger-Themen 5
M Fragen zum Auslesen von HTML Seiten Java Basics - Anfänger-Themen 5
M Java und Html Java Basics - Anfänger-Themen 4
I Watermark erstellen mit HTML in Bild? Java Basics - Anfänger-Themen 7
T Ausgabe in HTML :( Java Basics - Anfänger-Themen 19
F HTML Datei in .jar speichern und abändern Java Basics - Anfänger-Themen 2
S mit Java HTML Button drücken "lassen" Java Basics - Anfänger-Themen 8
M Erste Schritte Java Applet - HTML Seiten auslesen und in Access Datenbank schreiben? Java Basics - Anfänger-Themen 15
T HTML-Inputbox ansteuern Java Basics - Anfänger-Themen 4
I HTML Tabelle nur so lange erzeugen bis Höhe erreicht Java Basics - Anfänger-Themen 9
I HTML in String wandeln? Java Basics - Anfänger-Themen 1
D javacode durch Html ausfuehren Java Basics - Anfänger-Themen 13
C Html in einem JEditorPane anzeigen Java Basics - Anfänger-Themen 2
I jar-Datei in HTML einbinden Java Basics - Anfänger-Themen 6
O HTML -> BBCode Parser? Java Basics - Anfänger-Themen 3
O Methode in andere Klasse verlegt, "auslesen" einer HTML Seite verschnellert - Problem. Java Basics - Anfänger-Themen 4
V Umlaute beim Parsen einer HTML Seite Java Basics - Anfänger-Themen 4
C Java Applet in html. Pong - old school Spiel Java Basics - Anfänger-Themen 10
J Methode um eine HTML-Datei zu öffnen Java Basics - Anfänger-Themen 10
H Schnell HTML-Tags finden Java Basics - Anfänger-Themen 5
H Welcher Html-Parser? Java Basics - Anfänger-Themen 8
G Probleme beim HTML auslesen Java Basics - Anfänger-Themen 6
J Html zugriff - POST Request/Response Java Basics - Anfänger-Themen 4
Z Input/Output HTML-Seite einlesen Java Basics - Anfänger-Themen 4
H Interface JTextPane html formatiert kopieren Java Basics - Anfänger-Themen 2
L Applet soll Html-File öffnen Java Basics - Anfänger-Themen 2
L NetBeans Applet in html Java Basics - Anfänger-Themen 4
H Java Server/Client, HTML Seite anzeigen Java Basics - Anfänger-Themen 2
D Wie den HTML-Teil des Chat Tutorials aus dem FAQ-Bereich starten? Java Basics - Anfänger-Themen 5
C Link wie bei HTML Java Basics - Anfänger-Themen 7
F Methoden replaceAll (regex) HTML Java Basics - Anfänger-Themen 3
M Mit Java eine HTML-Seite speichern Java Basics - Anfänger-Themen 11
C Java in HTML einbinden Java Basics - Anfänger-Themen 2
N Website HTML mit JavaScript abrufen Java Basics - Anfänger-Themen 9
R JSON - Ausgabe als HTML mit gson Java Basics - Anfänger-Themen 6
R Suche Regex Ausdruck für HTML Java Basics - Anfänger-Themen 11
A JEditorPane + html -> java.io.IOException: invalid url Java Basics - Anfänger-Themen 4
S Lightbox Script vs. Taco HTML Script Java Basics - Anfänger-Themen 4
S String mit ASCII/HTML Zeichen darstellen Java Basics - Anfänger-Themen 10
S HTML Regularer Expression Java Basics - Anfänger-Themen 20
S regulärer Ausdruck HTML Java Basics - Anfänger-Themen 5
D Html Formular auswerten Java Basics - Anfänger-Themen 8
P Java Object das eine HTML Datei repräsentiert Java Basics - Anfänger-Themen 19
eLogic Einlesen von HTML-Source Java Basics - Anfänger-Themen 6
turmaline Ein regulärer Ausdruck für HTML-Sonderzeichen Java Basics - Anfänger-Themen 3
H html-Text mit Formatierung in String speichern Java Basics - Anfänger-Themen 4
S Java und HTML- Drop Down- Mehrfachauswahl Java Basics - Anfänger-Themen 3
A execute jar from html Java Basics - Anfänger-Themen 6
D Interpreter-Fehler JavaApplet läuft in der IDE aber nicht im HTML Dokument Java Basics - Anfänger-Themen 9
T Servlet HTML-Formular Java Basics - Anfänger-Themen 9
TheKing HTML Formular mit Java ausfüllen und absenden Java Basics - Anfänger-Themen 9
P HTML <input> Feld in einem JLabel auslesen Java Basics - Anfänger-Themen 4
C einfacher Link zu *.html Datei möglich? Java Basics - Anfänger-Themen 4
V javascript und HTML: hoch 2 Java Basics - Anfänger-Themen 2
M index.html fehlt Java Basics - Anfänger-Themen 12
3 Eine HTML Datei in eine Java Datei umschreiben Java Basics - Anfänger-Themen 23
Weltall 7 Applet in HTML einbinden Java Basics - Anfänger-Themen 3
A Java in Html einbinden Java Basics - Anfänger-Themen 2
M Frage zum Aufruf eines Applets aus einer HTML - Datei Java Basics - Anfänger-Themen 3
sylo Auf HTML-Dateien in einer Jar zugreifen Java Basics - Anfänger-Themen 9
D HTML Text von jButton disablen Java Basics - Anfänger-Themen 2
I CSV Datei auf HTML Seite hochladen und in DB laden Java Basics - Anfänger-Themen 9
K html to pdf Java Basics - Anfänger-Themen 6
D String aus Html (sonderfall) Java Basics - Anfänger-Themen 9
F html editor Java Basics - Anfänger-Themen 5

Ähnliche Java Themen

Neue Themen


Oben