Hallo,
wie der Titel schon sagt muss ich einen kleinen HTML Parser erstellen.
Er muss nicht vieles überprüfen, da er zur Korrektur der HTML-Seiten des Info-Grundkurses dienen soll.
Sind also nur folgende HTML Tags:
Hier die Testseite:
Egal nun zum Wesentlichen:
Kurz vorweg, ich weiß irgendwie alles nur so halb! =/
Ich habe mir nun überlegt, dass die Schüler die Website als .txt Datei abgeben.
Also habe ich schonmal damit angefangen die Datei in einem String zu speichern:
Klappt auch, glaube ich! Zumindest wird er korrekt in der Konsole ausgedruckt.
Jetzt möchte ich wie folgt vorgehen:
Zunächst soll der String nach Umlauten durchsucht werden (ä, ö, ü & ß) und die Anzahl der
Funde, soll für später gespeichert werden.
Anschließend soll jetzt der Text zwischen > und < entfernt werden, damit ich nur noch die
html-Tags habe.
Jetzt mein Problem: ICH HAB 0 AHNUNG wie ich weiter machen soll... bei mir scheitert es immer an Kleinigkeiten glaube ich.
Wie kann ich jetzt den String quellcode weiter benutzen um zB die Umlaute zu zählen?
Ich bin für jede kleine Hilfestellung dankbar!
wie der Titel schon sagt muss ich einen kleinen HTML Parser erstellen.
Er muss nicht vieles überprüfen, da er zur Korrektur der HTML-Seiten des Info-Grundkurses dienen soll.
Sind also nur folgende HTML Tags:
- Grundgerüst (html, head & body)
- Meta
- Title
- Listen (OL & UL)
- Links
- Text-Ausrichtung (align)
- Grafiken (img src)
- Text-Eigenschaften (b,u & i)
- Font
Hier die Testseite:
HTML:
<html>
<head>
<meta name="description" content="html Seite nach der Aufgabenstellung des Grundkurses.">
<meta name="keywords" content="Informatik">
<meta name="author" content="Jakov Greenyer">
<title>Meine Webseite</title>
</head>
<body>
<font size="10" color="purple" face="Courier New, Courier, monospace">
<p><h1>Überschrift</h1></p>
<p><a href="www.djhyte.de">Hier</a> geht es zu meiner Seite!</p>
<p>Drei <b>Gründe</b>, warum ihr <u>meine HP</u> besuchen solltet:</p>
<ol>
<li>Gute Musik!</li>
<li>Gute Wallpaper & Flyer!</li>
<li>Mehr Informatiööööönen über mich!</li>
</ol>
<p><img src="http://unterricht.schermann.org/images/a/ac/HTML-Automat.png" alt="HTML Automat">
</font>
</body>
</html>
Egal nun zum Wesentlichen:
Kurz vorweg, ich weiß irgendwie alles nur so halb! =/
Ich habe mir nun überlegt, dass die Schüler die Website als .txt Datei abgeben.
Also habe ich schonmal damit angefangen die Datei in einem String zu speichern:
Java:
public static void input()
{
System.out.println("Text wird Importiert...:");
try
{
BufferedReader br =
new BufferedReader(new FileReader("index.txt"));
String quellcode = br.readLine();
while (quellcode != null)
{
System.out.println(quellcode);
quellcode = br.readLine();
}
}
catch(IOException ioe)
{
ioe.printStackTrace();
}
}
Klappt auch, glaube ich! Zumindest wird er korrekt in der Konsole ausgedruckt.
Jetzt möchte ich wie folgt vorgehen:
Zunächst soll der String nach Umlauten durchsucht werden (ä, ö, ü & ß) und die Anzahl der
Funde, soll für später gespeichert werden.
Anschließend soll jetzt der Text zwischen > und < entfernt werden, damit ich nur noch die
html-Tags habe.
Jetzt mein Problem: ICH HAB 0 AHNUNG wie ich weiter machen soll... bei mir scheitert es immer an Kleinigkeiten glaube ich.
Wie kann ich jetzt den String quellcode weiter benutzen um zB die Umlaute zu zählen?
Ich bin für jede kleine Hilfestellung dankbar!