Guten Tag zusammen,
aktuell bin ich dabei , den angezeigten Text einer Webseite zu extrahieren. Hierbei greife ich auf das Package HtmlUnit zurück.
Dies funktioniert bis auf folgende Problematik nicht:
Daraus wird folgender String : Werben mit GoogleUnternehmensangebote
Jetzt die Frage an Euch: Gibt es eine Möglichkeit ein Leerzeichen nach dem schließenden </a> Tag oder allen </> einzufügen?
Vielen Dank hierfür, beste Grüße Daniel
aktuell bin ich dabei , den angezeigten Text einer Webseite zu extrahieren. Hierbei greife ich auf das Package HtmlUnit zurück.
Java:
for(HtmlElement elem : html.getElementsByTagName("body"))
{
Htmlbody.append(elem.asText().toLowerCase()) ;
}
Dies funktioniert bis auf folgende Problematik nicht:
Code:
<a href="/intl/de/ads/">Werben mit Google</a><a href="/services/">Unternehmensangebote</
Daraus wird folgender String : Werben mit GoogleUnternehmensangebote
Jetzt die Frage an Euch: Gibt es eine Möglichkeit ein Leerzeichen nach dem schließenden </a> Tag oder allen </> einzufügen?
Vielen Dank hierfür, beste Grüße Daniel