danke, die seite kenne ich.
ich durchsuche die html-datei ja auch mH eines regulären ausdrucks.
das problem ist aber, dass es nicht eben nicht "ganz einfach" ist, alles zu ignorieren, was
1. nicht zwischen den body tags liegt und
2. links, bilder oder sonstwas darstellt.
=> daher wäre es viel einfacher, die datei so auszulesen, wie sie letztlich auch angezeigt wird. also nur den text einlesen, der im browser zu sehen ist...
wenn ich zeile für zeile durchgehe, dann überprüfe ich auch die zeilen der meta-tags usw. -> und das führt dann zu ungewünschten ergebnissen. siehe oben.
=> daher wäre es viel einfacher, die datei so auszulesen, wie sie letztlich auch angezeigt wird. also nur den text einlesen, der im browser zu sehen ist...
Das ist schlechterdings im allgemeinen so nicht möglich: solange man korrekte xhtml-Seiten hat, mag es noch gehen; für beliebige HTML-Seiten aus dem Web kann man aber nicht mal eine vernünftige Grammatik angeben, da die Browser - historisch gewachsen - jede Menge syntaktisch falsche Konstrukte dennoch verstehen.
=> daher wäre es viel einfacher, die datei so auszulesen, wie sie letztlich auch angezeigt wird. also nur den text einlesen, der im browser zu sehen ist...
Das ist schlechterdings im allgemeinen so nicht möglich: solange man korrekte xhtml-Seiten hat, mag es noch gehen; für beliebige HTML-Seiten aus dem Web kann man aber nicht mal eine vernünftige Grammatik angeben, da die Browser - historisch gewachsen - jede Menge syntaktisch falsche Konstrukte dennoch verstehen.
hm..naja es sollen eigtl nur seiten durchsucht werden, die ich mehr oder weniger selbst erstellt habe. trotzdem dachte ich, man könnte vllt das einlesen, was ein browser ausgeben würde..quasi ???:L
hm..naja es sollen eigtl nur seiten durchsucht werden, die ich mehr oder weniger selbst erstellt habe. trotzdem dachte ich, man könnte vllt das einlesen, was ein browser ausgeben würde..quasi ???:L
Bei selbsterstellten Seiten kennst Du ja die Besonderheiten, damit könnte es also gehen - wenn Du aber Seiten hast, bei denen z.B. per CSS Bereiche ausgeblendet werden, dann würdest Du diese Dinge natürlich trotzdem durchsuchen (nur ein Beispiel für die Unterschiede zwischen dem, was der Browser anzeigt, und dem, was man bei der textuellen Analyse der HTML findet).
Sind Deine Seiten gültiges xhtml? Dann könntest Du einen XML-Parser verwenden, das DOM iterieren und je nach Node entweder den Text-Content übernehmen oder den ganzen Node überspringen.
Sind Deine Seiten gültiges xhtml? Dann könntest Du einen XML-Parser verwenden, das DOM iterieren und je nach Node entweder den Text-Content übernehmen oder den ganzen Node überspringen.
xhtml ist hier nur insofern wichtig, als dass Du wohlgeformtes XML brauchst, um die Seiten parsen zu können. Sind die Seiten in xhtml. dann ist das automatisch gegeben. Ansonsten ist es erstmal wichtig, dass es zu jedem oeffnenden Tag auch ein schließendes gibt.
org.htmlparser.parserapplications
Class StringExtractor
public class StringExtractor
extends Object
Extract plaintext strings from a web page. Illustrative program to gather the textual contents of a web page. Uses a StringBean to accumulate the user visible text (what a browser would display) into a single string.