html-datei auslesen

Status
Nicht offen für weitere Antworten.

norman

Top Contributor
hallo zusammen,

gibts bereits eine api oder sowas, womit ich in einer html-datei zB nach einem String suchen kann, ohne treffer a la
Code:
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
zu bekommen, wenn ich nach "text" suche..?

sollte recht umständlich sein, dass selbst zu implementieren ???:L
 

foxy

Aktives Mitglied
Tip:

schau mal unter

www.regenechse.de

nach dem prinzip kann man ganz einfach datein durchsuchen und nach bestimmten sachen darin suchen :)


ömm hab grad nachgeschaut ... fin die dumme page nimma -.-
 

norman

Top Contributor
danke, die seite kenne ich.
ich durchsuche die html-datei ja auch mH eines regulären ausdrucks.

das problem ist aber, dass es nicht eben nicht "ganz einfach" ist, alles zu ignorieren, was
1. nicht zwischen den body tags liegt und
2. links, bilder oder sonstwas darstellt.


=> daher wäre es viel einfacher, die datei so auszulesen, wie sie letztlich auch angezeigt wird. also nur den text einlesen, der im browser zu sehen ist...
 

foxy

Aktives Mitglied
naja wiso du gehst zeile für zeile durch .... und suchst dann eben nur zw den " " nach deinem text ... fals nich gefunden weiter suchen
 

norman

Top Contributor
foxy hat gesagt.:
naja wiso du gehst zeile für zeile durch .... und suchst dann eben nur zw den " " nach deinem text ... fals nich gefunden weiter suchen
wenn ich zeile für zeile durchgehe, dann überprüfe ich auch die zeilen der meta-tags usw. -> und das führt dann zu ungewünschten ergebnissen. siehe oben.

was ist "zwischen den " " "?
foxy hat gesagt.:
zw den " " nach deinem text
 

Murray

Top Contributor
norman hat gesagt.:
=> daher wäre es viel einfacher, die datei so auszulesen, wie sie letztlich auch angezeigt wird. also nur den text einlesen, der im browser zu sehen ist...
Das ist schlechterdings im allgemeinen so nicht möglich: solange man korrekte xhtml-Seiten hat, mag es noch gehen; für beliebige HTML-Seiten aus dem Web kann man aber nicht mal eine vernünftige Grammatik angeben, da die Browser - historisch gewachsen - jede Menge syntaktisch falsche Konstrukte dennoch verstehen.
 

foxy

Aktives Mitglied
vlt verstehe ich die frage auch falsch


due willst nach einem text in einer html datei suchen,
dieser text befindet sich immer ziwschen den ""

also " suchender text"
oder?
 

norman

Top Contributor
nein. der zu suchende String beinhaltet keine " und natürlich ist es unklar, wo er in der datei vorkommt.
 

norman

Top Contributor
Murray hat gesagt.:
norman hat gesagt.:
=> daher wäre es viel einfacher, die datei so auszulesen, wie sie letztlich auch angezeigt wird. also nur den text einlesen, der im browser zu sehen ist...
Das ist schlechterdings im allgemeinen so nicht möglich: solange man korrekte xhtml-Seiten hat, mag es noch gehen; für beliebige HTML-Seiten aus dem Web kann man aber nicht mal eine vernünftige Grammatik angeben, da die Browser - historisch gewachsen - jede Menge syntaktisch falsche Konstrukte dennoch verstehen.
hm..naja es sollen eigtl nur seiten durchsucht werden, die ich mehr oder weniger selbst erstellt habe. trotzdem dachte ich, man könnte vllt das einlesen, was ein browser ausgeben würde..quasi ???:L
 

Murray

Top Contributor
norman hat gesagt.:
hm..naja es sollen eigtl nur seiten durchsucht werden, die ich mehr oder weniger selbst erstellt habe. trotzdem dachte ich, man könnte vllt das einlesen, was ein browser ausgeben würde..quasi ???:L
Bei selbsterstellten Seiten kennst Du ja die Besonderheiten, damit könnte es also gehen - wenn Du aber Seiten hast, bei denen z.B. per CSS Bereiche ausgeblendet werden, dann würdest Du diese Dinge natürlich trotzdem durchsuchen (nur ein Beispiel für die Unterschiede zwischen dem, was der Browser anzeigt, und dem, was man bei der textuellen Analyse der HTML findet).

Sind Deine Seiten gültiges xhtml? Dann könntest Du einen XML-Parser verwenden, das DOM iterieren und je nach Node entweder den Text-Content übernehmen oder den ganzen Node überspringen.
 

norman

Top Contributor
Murray hat gesagt.:
Sind Deine Seiten gültiges xhtml? Dann könntest Du einen XML-Parser verwenden, das DOM iterieren und je nach Node entweder den Text-Content übernehmen oder den ganzen Node überspringen.
hm. das ist eine gute frage. weiß jetzt nicht was der xhtml standard ist. auf jeden fall werden aber einige jsp-seiten dazukommen..

denke ich schau morgen mal was xhtml, DOM usw genau ist. einen Node überspringen hört sich jedenfalls schonmal gut an.
 

Murray

Top Contributor
xhtml ist hier nur insofern wichtig, als dass Du wohlgeformtes XML brauchst, um die Seiten parsen zu können. Sind die Seiten in xhtml. dann ist das automatisch gegeben. Ansonsten ist es erstmal wichtig, dass es zu jedem oeffnenden Tag auch ein schließendes gibt.
 

norman

Top Contributor
hm..ich glaube ich habe hier das richtige gefunden:

http://htmlparser.sourceforge.net/ hat gesagt.:
...Extraction encompasses all the information retrieval programs that are not meant to preserve the source page. This covers uses like:

* text extraction, for use as input for text search engine databases for example...

JavaDoc hat gesagt.:
org.htmlparser.parserapplications
Class StringExtractor

public class StringExtractor
extends Object

Extract plaintext strings from a web page. Illustrative program to gather the textual contents of a web page. Uses a StringBean to accumulate the user visible text (what a browser would display) into a single string.
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
S Text aus einer HTML Datei auslesen Java Basics - Anfänger-Themen 1
A HTML-Code auslesen und mit einem Wert in der property-Datei vergleichen Java Basics - Anfänger-Themen 2
B HTML Datei einlesen und HTML Code in String wandeln Java Basics - Anfänger-Themen 19
krgewb Input/Output Umlaute in generierter HTML-Datei Java Basics - Anfänger-Themen 7
F HTML Datei in .jar speichern und abändern Java Basics - Anfänger-Themen 2
I jar-Datei in HTML einbinden Java Basics - Anfänger-Themen 6
J Methode um eine HTML-Datei zu öffnen Java Basics - Anfänger-Themen 10
P Java Object das eine HTML Datei repräsentiert Java Basics - Anfänger-Themen 19
C einfacher Link zu *.html Datei möglich? Java Basics - Anfänger-Themen 4
3 Eine HTML Datei in eine Java Datei umschreiben Java Basics - Anfänger-Themen 23
M Frage zum Aufruf eines Applets aus einer HTML - Datei Java Basics - Anfänger-Themen 3
I CSV Datei auf HTML Seite hochladen und in DB laden Java Basics - Anfänger-Themen 9
S Text aus HTML Datei in TXT Datei Java Basics - Anfänger-Themen 19
Ollek Bestimmte Zeilen aus einer HTML Datei lesen Java Basics - Anfänger-Themen 8
H Einlesen von Strings aus html-datei Java Basics - Anfänger-Themen 3
Developer_X HTML Datei nicht von Java Lesbar Java Basics - Anfänger-Themen 8
M html datei drucken Java Basics - Anfänger-Themen 18
M HTML Datei bearbeiten Java Basics - Anfänger-Themen 14
M HTML Datei als Text rausspeichern Java Basics - Anfänger-Themen 3
C Erstellen und Beschreiben einer HTML-Datei Java Basics - Anfänger-Themen 4
G JEditorPane - HTML Datei übergeben? Java Basics - Anfänger-Themen 3
Semox Umwandlung von Sonderzeichen in HTML-Datei mit Ausgabe Java Basics - Anfänger-Themen 7
T Ausgeben von einer php/html Datei in Java Java Basics - Anfänger-Themen 5
G Hilfer zur einer Anwendung soll HTML Datei öffnen Java Basics - Anfänger-Themen 4
E HTML-Datei im Javaprojekt anzeigen lassen Java Basics - Anfänger-Themen 7
D HTML-Datei einlesen/parsen Java Basics - Anfänger-Themen 9
D Komfortabel HTML - Datei schreiben Java Basics - Anfänger-Themen 2
T HTML-Datei ausgeben Java Basics - Anfänger-Themen 2
G html datei + Klassen in eine jar datei stecken? Java Basics - Anfänger-Themen 3
T HTML Datei im Browser laden Java Basics - Anfänger-Themen 8
T Eine HTML Datei mit Java bear. Wie soll kann man anfangen? Java Basics - Anfänger-Themen 11
E HTML Datei drucken Java Basics - Anfänger-Themen 4
B Ausgabe in bestimmte Zeile einer html Datei Java Basics - Anfänger-Themen 12
D Html-Datei auf Festplatte öffnen Java Basics - Anfänger-Themen 4
4 HTML-Datei öffnen Java Basics - Anfänger-Themen 7
G .doc-Datei in HTML umwandeln und als Popup einbinden Java Basics - Anfänger-Themen 5
W HTML Datei aus Applet in neuem Browserfenster öffnen Java Basics - Anfänger-Themen 5
W Javadoc HTML erzeugen mit allen dependency Java Basics - Anfänger-Themen 11
M html-seite drucken (gerendert) Java Basics - Anfänger-Themen 3
I HTML Code säubern Java Basics - Anfänger-Themen 4
B HTML File einlesen inkl. Bilder? Java Basics - Anfänger-Themen 2
B HTML Code in XML speichern Java Basics - Anfänger-Themen 3
B HTML Code / Seite auslesen und JAVA Objekte erstellen Java Basics - Anfänger-Themen 12
K Erstes kleines Spieleprojekt - Java GUI in HTML einbinden Java Basics - Anfänger-Themen 3
B String nach HTML formatieren Java Basics - Anfänger-Themen 9
S HTML-Quelltext hinter HTTPS Java Basics - Anfänger-Themen 1
J Input/Output Input Buttons Html mit JSP Java Basics - Anfänger-Themen 3
E HTML in Java einbinden oder JavaScript? Java Basics - Anfänger-Themen 5
D Mit Java HTML bzw Javascript auslesen Java Basics - Anfänger-Themen 1
G Servlet - externe HTML (URL) auslesen Java Basics - Anfänger-Themen 1
N Status-Log - HTML Java Basics - Anfänger-Themen 12
C Methoden Welche JSoup Methoden Und Parameter für diese HTML Tags Java Basics - Anfänger-Themen 4
I Meta Tags vergleichen mit Html Vorgabe Java Basics - Anfänger-Themen 8
B HTML Code drucken Java Basics - Anfänger-Themen 4
D HTML Manipulation Navigation Java Basics - Anfänger-Themen 1
Z Html Element aus der Webseite auslesen Java Basics - Anfänger-Themen 1
D Erste Schritte HTML aus JEditorPane drucken Java Basics - Anfänger-Themen 5
M Fragen zum Auslesen von HTML Seiten Java Basics - Anfänger-Themen 5
M Java und Html Java Basics - Anfänger-Themen 4
I HTML Code in Bild (transparent) konvertieren Java Basics - Anfänger-Themen 0
I Watermark erstellen mit HTML in Bild? Java Basics - Anfänger-Themen 7
T Ausgabe in HTML :( Java Basics - Anfänger-Themen 19
S mit Java HTML Button drücken "lassen" Java Basics - Anfänger-Themen 8
M Erste Schritte Java Applet - HTML Seiten auslesen und in Access Datenbank schreiben? Java Basics - Anfänger-Themen 15
T HTML-Inputbox ansteuern Java Basics - Anfänger-Themen 4
I HTML Tabelle nur so lange erzeugen bis Höhe erreicht Java Basics - Anfänger-Themen 9
I HTML in String wandeln? Java Basics - Anfänger-Themen 1
D javacode durch Html ausfuehren Java Basics - Anfänger-Themen 13
W HTML Code, Umlaute werden nicht richtig dargestellt Java Basics - Anfänger-Themen 7
C Html in einem JEditorPane anzeigen Java Basics - Anfänger-Themen 2
O HTML -> BBCode Parser? Java Basics - Anfänger-Themen 3
O Methode in andere Klasse verlegt, "auslesen" einer HTML Seite verschnellert - Problem. Java Basics - Anfänger-Themen 4
V Umlaute beim Parsen einer HTML Seite Java Basics - Anfänger-Themen 4
C Java Applet in html. Pong - old school Spiel Java Basics - Anfänger-Themen 10
H Schnell HTML-Tags finden Java Basics - Anfänger-Themen 5
H Welcher Html-Parser? Java Basics - Anfänger-Themen 8
G Probleme beim HTML auslesen Java Basics - Anfänger-Themen 6
J Html zugriff - POST Request/Response Java Basics - Anfänger-Themen 4
Z Input/Output HTML-Seite einlesen Java Basics - Anfänger-Themen 4
H Interface JTextPane html formatiert kopieren Java Basics - Anfänger-Themen 2
L Applet soll Html-File öffnen Java Basics - Anfänger-Themen 2
L NetBeans Applet in html Java Basics - Anfänger-Themen 4
H Java Server/Client, HTML Seite anzeigen Java Basics - Anfänger-Themen 2
D Wie den HTML-Teil des Chat Tutorials aus dem FAQ-Bereich starten? Java Basics - Anfänger-Themen 5
C Link wie bei HTML Java Basics - Anfänger-Themen 7
F Methoden replaceAll (regex) HTML Java Basics - Anfänger-Themen 3
M Mit Java eine HTML-Seite speichern Java Basics - Anfänger-Themen 11
C Java in HTML einbinden Java Basics - Anfänger-Themen 2
N Website HTML mit JavaScript abrufen Java Basics - Anfänger-Themen 9
R JSON - Ausgabe als HTML mit gson Java Basics - Anfänger-Themen 6
R Suche Regex Ausdruck für HTML Java Basics - Anfänger-Themen 11
A JEditorPane + html -> java.io.IOException: invalid url Java Basics - Anfänger-Themen 4
S Lightbox Script vs. Taco HTML Script Java Basics - Anfänger-Themen 4
R Pattern bzw. Regex HTML-Code Java Basics - Anfänger-Themen 10
S String mit ASCII/HTML Zeichen darstellen Java Basics - Anfänger-Themen 10
S HTML Regularer Expression Java Basics - Anfänger-Themen 20
S regulärer Ausdruck HTML Java Basics - Anfänger-Themen 5
D Html Formular auswerten Java Basics - Anfänger-Themen 8
eLogic Einlesen von HTML-Source Java Basics - Anfänger-Themen 6
turmaline Ein regulärer Ausdruck für HTML-Sonderzeichen Java Basics - Anfänger-Themen 3

Ähnliche Java Themen

Neue Themen


Oben