html-datei auslesen

norman · 27. Apr 2006

hallo zusammen,

gibts bereits eine api oder sowas, womit ich in einer html-datei zB nach einem String suchen kann, ohne treffer a la

Code:

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />

zu bekommen, wenn ich nach "text" suche..?

sollte recht umständlich sein, dass selbst zu implementieren ???:L

foxy · 27. Apr 2006

Tip:

schau mal unter

www.regenechse.de

nach dem prinzip kann man ganz einfach datein durchsuchen und nach bestimmten sachen darin suchen

ömm hab grad nachgeschaut ... fin die dumme page nimma -.-

norman · 27. Apr 2006

danke, die seite kenne ich.
ich durchsuche die html-datei ja auch mH eines regulären ausdrucks.

das problem ist aber, dass es nicht eben nicht "ganz einfach" ist, alles zu ignorieren, was
1. nicht zwischen den body tags liegt und
2. links, bilder oder sonstwas darstellt.

=> daher wäre es viel einfacher, die datei so auszulesen, wie sie letztlich auch angezeigt wird. also nur den text einlesen, der im browser zu sehen ist...

foxy · 27. Apr 2006

naja wiso du gehst zeile für zeile durch .... und suchst dann eben nur zw den " " nach deinem text ... fals nich gefunden weiter suchen

norman · 27. Apr 2006

foxy hat gesagt.:
naja wiso du gehst zeile für zeile durch .... und suchst dann eben nur zw den " " nach deinem text ... fals nich gefunden weiter suchen

wenn ich zeile für zeile durchgehe, dann überprüfe ich auch die zeilen der meta-tags usw. -> und das führt dann zu ungewünschten ergebnissen. siehe oben.

was ist "zwischen den " " "?

foxy hat gesagt.:
zw den " " nach deinem text

Murray · 27. Apr 2006

norman hat gesagt.:
=> daher wäre es viel einfacher, die datei so auszulesen, wie sie letztlich auch angezeigt wird. also nur den text einlesen, der im browser zu sehen ist...

Das ist schlechterdings im allgemeinen so nicht möglich: solange man korrekte xhtml-Seiten hat, mag es noch gehen; für beliebige HTML-Seiten aus dem Web kann man aber nicht mal eine vernünftige Grammatik angeben, da die Browser - historisch gewachsen - jede Menge syntaktisch falsche Konstrukte dennoch verstehen.

foxy · 27. Apr 2006

vlt verstehe ich die frage auch falsch

due willst nach einem text in einer html datei suchen,
dieser text befindet sich immer ziwschen den ""

also " suchender text"
oder?

norman · 27. Apr 2006

nein. der zu suchende String beinhaltet keine " und natürlich ist es unklar, wo er in der datei vorkommt.

norman · 27. Apr 2006

Murray hat gesagt.:
norman hat gesagt.:

=> daher wäre es viel einfacher, die datei so auszulesen, wie sie letztlich auch angezeigt wird. also nur den text einlesen, der im browser zu sehen ist...

Zum Vergrößern anklicken....

Das ist schlechterdings im allgemeinen so nicht möglich: solange man korrekte xhtml-Seiten hat, mag es noch gehen; für beliebige HTML-Seiten aus dem Web kann man aber nicht mal eine vernünftige Grammatik angeben, da die Browser - historisch gewachsen - jede Menge syntaktisch falsche Konstrukte dennoch verstehen.

hm..naja es sollen eigtl nur seiten durchsucht werden, die ich mehr oder weniger selbst erstellt habe. trotzdem dachte ich, man könnte vllt das einlesen, was ein browser ausgeben würde..quasi ???:L

Murray · 27. Apr 2006

norman hat gesagt.:
hm..naja es sollen eigtl nur seiten durchsucht werden, die ich mehr oder weniger selbst erstellt habe. trotzdem dachte ich, man könnte vllt das einlesen, was ein browser ausgeben würde..quasi ???:L

Bei selbsterstellten Seiten kennst Du ja die Besonderheiten, damit könnte es also gehen - wenn Du aber Seiten hast, bei denen z.B. per CSS Bereiche ausgeblendet werden, dann würdest Du diese Dinge natürlich trotzdem durchsuchen (nur ein Beispiel für die Unterschiede zwischen dem, was der Browser anzeigt, und dem, was man bei der textuellen Analyse der HTML findet).

Sind Deine Seiten gültiges xhtml? Dann könntest Du einen XML-Parser verwenden, das DOM iterieren und je nach Node entweder den Text-Content übernehmen oder den ganzen Node überspringen.

norman · 27. Apr 2006

Murray hat gesagt.:
Sind Deine Seiten gültiges xhtml? Dann könntest Du einen XML-Parser verwenden, das DOM iterieren und je nach Node entweder den Text-Content übernehmen oder den ganzen Node überspringen.

hm. das ist eine gute frage. weiß jetzt nicht was der xhtml standard ist. auf jeden fall werden aber einige jsp-seiten dazukommen..

denke ich schau morgen mal was xhtml, DOM usw genau ist. einen Node überspringen hört sich jedenfalls schonmal gut an.

Murray · 27. Apr 2006

xhtml ist hier nur insofern wichtig, als dass Du wohlgeformtes XML brauchst, um die Seiten parsen zu können. Sind die Seiten in xhtml. dann ist das automatisch gegeben. Ansonsten ist es erstmal wichtig, dass es zu jedem oeffnenden Tag auch ein schließendes gibt.

norman · 28. Apr 2006

hm..ich glaube ich habe hier das richtige gefunden:

http://htmlparser.sourceforge.net/ hat gesagt.:
...Extraction encompasses all the information retrieval programs that are not meant to preserve the source page. This covers uses like:

* text extraction, for use as input for text search engine databases for example...

JavaDoc hat gesagt.:
org.htmlparser.parserapplications
Class StringExtractor

public class StringExtractor
extends Object

Extract plaintext strings from a web page. Illustrative program to gather the textual contents of a web page. Uses a StringBean to accumulate the user visible text (what a browser would display) into a single string.

	Titel	Forum	Antworten	Datum
S	Text aus einer HTML Datei auslesen	Java Basics - Anfänger-Themen	1	16. Mai 2017
A	HTML-Code auslesen und mit einem Wert in der property-Datei vergleichen	Java Basics - Anfänger-Themen	2	9. Aug 2012
B	HTML Datei einlesen und HTML Code in String wandeln	Java Basics - Anfänger-Themen	19	6. Aug 2019
	Input/Output Umlaute in generierter HTML-Datei	Java Basics - Anfänger-Themen	7	20. Mrz 2017
F	HTML Datei in .jar speichern und abändern	Java Basics - Anfänger-Themen	2	12. Jul 2015
I	jar-Datei in HTML einbinden	Java Basics - Anfänger-Themen	6	12. Jan 2013
J	Methode um eine HTML-Datei zu öffnen	Java Basics - Anfänger-Themen	10	22. Nov 2012
P	Java Object das eine HTML Datei repräsentiert	Java Basics - Anfänger-Themen	19	12. Mai 2011
C	einfacher Link zu *.html Datei möglich?	Java Basics - Anfänger-Themen	4	11. Okt 2010
3	Eine HTML Datei in eine Java Datei umschreiben	Java Basics - Anfänger-Themen	23	6. Sep 2010
M	Frage zum Aufruf eines Applets aus einer HTML - Datei	Java Basics - Anfänger-Themen	3	17. Aug 2010
I	CSV Datei auf HTML Seite hochladen und in DB laden	Java Basics - Anfänger-Themen	9	9. Aug 2010
S	Text aus HTML Datei in TXT Datei	Java Basics - Anfänger-Themen	19	29. Mrz 2010
	Bestimmte Zeilen aus einer HTML Datei lesen	Java Basics - Anfänger-Themen	8	21. Sep 2009
H	Einlesen von Strings aus html-datei	Java Basics - Anfänger-Themen	3	14. Jul 2009
	HTML Datei nicht von Java Lesbar	Java Basics - Anfänger-Themen	8	8. Jun 2009
M	html datei drucken	Java Basics - Anfänger-Themen	18	26. Mai 2009
M	HTML Datei bearbeiten	Java Basics - Anfänger-Themen	14	24. Mai 2009
M	HTML Datei als Text rausspeichern	Java Basics - Anfänger-Themen	3	15. Nov 2008
C	Erstellen und Beschreiben einer HTML-Datei	Java Basics - Anfänger-Themen	4	21. Okt 2008
G	JEditorPane - HTML Datei übergeben?	Java Basics - Anfänger-Themen	3	16. Okt 2008
	Umwandlung von Sonderzeichen in HTML-Datei mit Ausgabe	Java Basics - Anfänger-Themen	7	13. Okt 2008
T	Ausgeben von einer php/html Datei in Java	Java Basics - Anfänger-Themen	5	21. Nov 2007
G	Hilfer zur einer Anwendung soll HTML Datei öffnen	Java Basics - Anfänger-Themen	4	9. Jul 2007
E	HTML-Datei im Javaprojekt anzeigen lassen	Java Basics - Anfänger-Themen	7	3. Jun 2007
D	HTML-Datei einlesen/parsen	Java Basics - Anfänger-Themen	9	1. Feb 2007
D	Komfortabel HTML - Datei schreiben	Java Basics - Anfänger-Themen	2	19. Jan 2007
T	HTML-Datei ausgeben	Java Basics - Anfänger-Themen	2	6. Jun 2006
G	html datei + Klassen in eine jar datei stecken?	Java Basics - Anfänger-Themen	3	21. Apr 2006
T	HTML Datei im Browser laden	Java Basics - Anfänger-Themen	8	28. Feb 2006
T	Eine HTML Datei mit Java bear. Wie soll kann man anfangen?	Java Basics - Anfänger-Themen	11	28. Sep 2005
E	HTML Datei drucken	Java Basics - Anfänger-Themen	4	14. Sep 2005
B	Ausgabe in bestimmte Zeile einer html Datei	Java Basics - Anfänger-Themen	12	1. Jun 2005
D	Html-Datei auf Festplatte öffnen	Java Basics - Anfänger-Themen	4	19. Jan 2005
4	HTML-Datei öffnen	Java Basics - Anfänger-Themen	7	7. Jul 2004
G	.doc-Datei in HTML umwandeln und als Popup einbinden	Java Basics - Anfänger-Themen	5	18. Jun 2004
W	HTML Datei aus Applet in neuem Browserfenster öffnen	Java Basics - Anfänger-Themen	5	27. Apr 2004
J	JTextPane "text/html" grafik implementieren...	Java Basics - Anfänger-Themen	9	2. Feb 2025
G	JLabel <html> mit Bild innerhalb des Textes </html>	Java Basics - Anfänger-Themen	4	25. Nov 2024
I	Backend in Java und Ansicht von Dateien in statische HTML Seiten?	Java Basics - Anfänger-Themen	15	11. Jun 2024
W	Javadoc HTML erzeugen mit allen dependency	Java Basics - Anfänger-Themen	11	28. Dez 2023
M	html-seite drucken (gerendert)	Java Basics - Anfänger-Themen	3	27. Aug 2023
I	HTML Code säubern	Java Basics - Anfänger-Themen	4	7. Dez 2021
B	HTML File einlesen inkl. Bilder?	Java Basics - Anfänger-Themen	2	9. Okt 2019
B	HTML Code in XML speichern	Java Basics - Anfänger-Themen	3	22. Apr 2019
B	HTML Code / Seite auslesen und JAVA Objekte erstellen	Java Basics - Anfänger-Themen	12	7. Jan 2019
K	Erstes kleines Spieleprojekt - Java GUI in HTML einbinden	Java Basics - Anfänger-Themen	3	6. Okt 2018
B	String nach HTML formatieren	Java Basics - Anfänger-Themen	9	22. Sep 2018
S	HTML-Quelltext hinter HTTPS	Java Basics - Anfänger-Themen	1	5. Sep 2018
J	Input/Output Input Buttons Html mit JSP	Java Basics - Anfänger-Themen	3	20. Jul 2018
E	HTML in Java einbinden oder JavaScript?	Java Basics - Anfänger-Themen	5	22. Dez 2017
D	Mit Java HTML bzw Javascript auslesen	Java Basics - Anfänger-Themen	1	21. Dez 2017
G	Servlet - externe HTML (URL) auslesen	Java Basics - Anfänger-Themen	1	4. Nov 2017
N	Status-Log - HTML	Java Basics - Anfänger-Themen	12	20. Mrz 2017
C	Methoden Welche JSoup Methoden Und Parameter für diese HTML Tags	Java Basics - Anfänger-Themen	4	22. Dez 2016
I	Meta Tags vergleichen mit Html Vorgabe	Java Basics - Anfänger-Themen	8	22. Nov 2016
B	HTML Code drucken	Java Basics - Anfänger-Themen	4	11. Aug 2016
D	HTML Manipulation Navigation	Java Basics - Anfänger-Themen	1	3. Mrz 2016
Z	Html Element aus der Webseite auslesen	Java Basics - Anfänger-Themen	1	17. Feb 2016
D	Erste Schritte HTML aus JEditorPane drucken	Java Basics - Anfänger-Themen	5	11. Jan 2016
M	Fragen zum Auslesen von HTML Seiten	Java Basics - Anfänger-Themen	5	29. Nov 2015
M	Java und Html	Java Basics - Anfänger-Themen	4	19. Nov 2015
I	HTML Code in Bild (transparent) konvertieren	Java Basics - Anfänger-Themen	0	10. Nov 2015
I	Watermark erstellen mit HTML in Bild?	Java Basics - Anfänger-Themen	7	4. Nov 2015
T	Ausgabe in HTML :(	Java Basics - Anfänger-Themen	19	14. Okt 2015
S	mit Java HTML Button drücken "lassen"	Java Basics - Anfänger-Themen	8	2. Jun 2015
M	Erste Schritte Java Applet - HTML Seiten auslesen und in Access Datenbank schreiben?	Java Basics - Anfänger-Themen	15	13. Feb 2015
T	HTML-Inputbox ansteuern	Java Basics - Anfänger-Themen	4	10. Dez 2014
I	HTML Tabelle nur so lange erzeugen bis Höhe erreicht	Java Basics - Anfänger-Themen	9	7. Dez 2014
I	HTML in String wandeln?	Java Basics - Anfänger-Themen	1	2. Nov 2014
D	javacode durch Html ausfuehren	Java Basics - Anfänger-Themen	13	30. Sep 2014
W	HTML Code, Umlaute werden nicht richtig dargestellt	Java Basics - Anfänger-Themen	7	26. Aug 2014
C	Html in einem JEditorPane anzeigen	Java Basics - Anfänger-Themen	2	18. Jun 2014
O	HTML -> BBCode Parser?	Java Basics - Anfänger-Themen	3	8. Jan 2013
O	Methode in andere Klasse verlegt, "auslesen" einer HTML Seite verschnellert - Problem.	Java Basics - Anfänger-Themen	4	8. Jan 2013
V	Umlaute beim Parsen einer HTML Seite	Java Basics - Anfänger-Themen	4	6. Jan 2013
C	Java Applet in html. Pong - old school Spiel	Java Basics - Anfänger-Themen	10	11. Dez 2012
H	Schnell HTML-Tags finden	Java Basics - Anfänger-Themen	5	9. Nov 2012
H	Welcher Html-Parser?	Java Basics - Anfänger-Themen	8	6. Sep 2012
G	Probleme beim HTML auslesen	Java Basics - Anfänger-Themen	6	31. Aug 2012
J	Html zugriff - POST Request/Response	Java Basics - Anfänger-Themen	4	23. Aug 2012
Z	Input/Output HTML-Seite einlesen	Java Basics - Anfänger-Themen	4	8. Aug 2012
H	Interface JTextPane html formatiert kopieren	Java Basics - Anfänger-Themen	2	29. Jul 2012
L	Applet soll Html-File öffnen	Java Basics - Anfänger-Themen	2	10. Jul 2012
L	NetBeans Applet in html	Java Basics - Anfänger-Themen	4	9. Jul 2012
H	Java Server/Client, HTML Seite anzeigen	Java Basics - Anfänger-Themen	2	21. Mai 2012
D	Wie den HTML-Teil des Chat Tutorials aus dem FAQ-Bereich starten?	Java Basics - Anfänger-Themen	5	21. Mai 2012
C	Link wie bei HTML	Java Basics - Anfänger-Themen	7	2. Mai 2012
F	Methoden replaceAll (regex) HTML	Java Basics - Anfänger-Themen	3	12. Apr 2012
M	Mit Java eine HTML-Seite speichern	Java Basics - Anfänger-Themen	11	10. Apr 2012
C	Java in HTML einbinden	Java Basics - Anfänger-Themen	2	9. Apr 2012
N	Website HTML mit JavaScript abrufen	Java Basics - Anfänger-Themen	9	30. Jan 2012
R	JSON - Ausgabe als HTML mit gson	Java Basics - Anfänger-Themen	6	14. Dez 2011
R	Suche Regex Ausdruck für HTML	Java Basics - Anfänger-Themen	11	5. Dez 2011
A	JEditorPane + html -> java.io.IOException: invalid url	Java Basics - Anfänger-Themen	4	16. Okt 2011
S	Lightbox Script vs. Taco HTML Script	Java Basics - Anfänger-Themen	4	31. Aug 2011
R	Pattern bzw. Regex HTML-Code	Java Basics - Anfänger-Themen	10	8. Aug 2011
S	String mit ASCII/HTML Zeichen darstellen	Java Basics - Anfänger-Themen	10	1. Jun 2011
S	HTML Regularer Expression	Java Basics - Anfänger-Themen	20	31. Mai 2011
S	regulärer Ausdruck HTML	Java Basics - Anfänger-Themen	5	26. Mai 2011

html-datei auslesen

norman

Top Contributor

foxy

Aktives Mitglied

norman

Top Contributor

foxy

Aktives Mitglied

norman

Top Contributor

Murray

Top Contributor

foxy

Aktives Mitglied

norman

Top Contributor

norman

Top Contributor

Murray

Top Contributor

norman

Top Contributor

Murray

Top Contributor

norman

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen