Hallo Leute,
wir parsen in einem Programm nach Google Snippets und möchten diese für die ersten tausend Ergebnisse (i.A. sind es weniger, aber das tut hier nichts zur Sache) in einer Textdatei abspeichern. Das Problem dabei: Tags sowie Sonderzeichen ( etc.) werden natürlich mit abgespeichert.
Nun kam ich auf den genialen Einfall, wir erzeugen uns erst mal eine HTML-Datei, öffnen diese dann und lesen hieraus den Text aus. Leider hat der Plan nicht ganz so funktioniert, wie ich mir das gewünscht hätte. Denn (natürlich) wird nicht der Text ausgelesen, sondern erneut der HTML-Code - und damit auch wieder alle Tags und Sonderzeichen.
Dass man die Tags leicht herausfiltern kann, ist mir bewusst, aber wie sieht das mit den Sonderzeichen aus? Immerhin soll die Textdatei im Nachhinein maschinell weiter verarbeitet werden und da nützt mir ein unleserlicher Text nicht viel.
Was kann ich tun? Gibt es eine Möglichkeit, den tatsächlich angezeigten Inhalt auszulesen. Oder gibt es eine Tabelle, in der ich nach dem Sonderzeichen parse und mir das tatsächliche Zeichen zurückgeben lasse?
Wäre für jede Art von Hinweisen dankbar!
Bis dahin viele Grüße aus Weimar
und einen schönen Abend noch.
wir parsen in einem Programm nach Google Snippets und möchten diese für die ersten tausend Ergebnisse (i.A. sind es weniger, aber das tut hier nichts zur Sache) in einer Textdatei abspeichern. Das Problem dabei: Tags sowie Sonderzeichen ( etc.) werden natürlich mit abgespeichert.
Nun kam ich auf den genialen Einfall, wir erzeugen uns erst mal eine HTML-Datei, öffnen diese dann und lesen hieraus den Text aus. Leider hat der Plan nicht ganz so funktioniert, wie ich mir das gewünscht hätte. Denn (natürlich) wird nicht der Text ausgelesen, sondern erneut der HTML-Code - und damit auch wieder alle Tags und Sonderzeichen.
Dass man die Tags leicht herausfiltern kann, ist mir bewusst, aber wie sieht das mit den Sonderzeichen aus? Immerhin soll die Textdatei im Nachhinein maschinell weiter verarbeitet werden und da nützt mir ein unleserlicher Text nicht viel.
Was kann ich tun? Gibt es eine Möglichkeit, den tatsächlich angezeigten Inhalt auszulesen. Oder gibt es eine Tabelle, in der ich nach dem Sonderzeichen parse und mir das tatsächliche Zeichen zurückgeben lasse?
Wäre für jede Art von Hinweisen dankbar!
Bis dahin viele Grüße aus Weimar
und einen schönen Abend noch.