Index Datei aus HTML-Dateien

ArnoldS · 8. Jan 2011

Hallo,
bin dabei eine Index-Datei aus verschiedenen HTML-Seiten aufzubauen. Dazu verwende ich eine Hashmap zu Speichern der einzelnen verschiedenen Wörter. Als Ausgabe präsentiere ich dann zu den Wörtern enstprechend die Dateien und wie oft das Wort in jeder Datei vorkommt. Das passt soweit, aber leider habe ich es bis jetzt nur auf Text-Dateien getestet. Wie kann ich das für HTML-Dateien anwenden.
1)Soll ich einfach überprüfen ob das Wort mit < beginnt und dieses dann einfach auslassen oder sollte ich einen professionellen parser verwenden?
2) Wie kann ich per Java zb: den html-Text einer Seite wie zb: heise online - IT-News, c't, iX, Technology Review, Telepolis per java parsen?

danke vielmals
arnold

XHelp · 8. Jan 2011

Das ist glaube ich kein Thema, was du eben aus dem Ärmel schütteln kannst.
Die trivialste Lösung wäre einfach alle html-Tags zu filtern und den Text der übrig bleibt auszuwerten.

ArnoldS · 9. Jan 2011

danke, wie würdest Du das anstellen? Ich meine das Filtern?
würdest Du einfach eine Datei erstellen wo alle Tags eingetragen sind und diese dann in ein Array einlesen und bevor ich die Wörter in den Index aufnehme mit dieser vergleichen?
Wäre es nicht einfacher eben den ersten Buchstaben des Wortes zu überprüfen und falls das Zeichen gleich < einfach das Wort nicht aufnehmen.

danke
arnold

XHelp · 9. Jan 2011

Ich denke mal, dass du da bei regulären Ausrücken besser aufgehoben bist. Sowas wie

Code:

<(.|\n)*?>

Wozu machst du es denn? Ich kann mir gut vorstellen, dass dafür bereits mächtigere Frameworks existieren.

ArnoldS · 11. Jan 2011

Hallo,
ich muss so etwas als Übung für die Uni machen. Dabei muss sicherlich nicht ein Framework verwendet werden, denn ich muss nur etwas mit threads machen. Ich habe mir aber gedacht dass könnte man eben auch als einfaches Programm verwenden um von verschiedenen html-Dateien einen Index zu erstellen.
Habe das Posting mit dem Jericho HTML Parser schon gelesen. Möchte aber eine ganz einfache Version verwenden.
@XHelp: ist dieser reguläre Ausdruck korrekt oder ist das eben nur so ein Beispiel? (muss das mit den regulären Ausdrücken nochmals nachlesen: mit ist klar dass dein regulärer Ausdruck mit < startet und > endet. Der Stern und ? sollten Platzhalter sein. Aber was bedeutet dein angeführter regulärer Ausdruck?
danke
arnold

XHelp · 11. Jan 2011

* und ? sind keine Platzhalter. Wenn du dich etwas die die RegEx einließt, dann wird dir das ziemlich schnell klar. Der RegEx findet alles, was zwischen < und > ist.

Du musst IRGENDWAS mit Threads machen und entscheidest dich für sowas? oO

ArnoldS · 13. Jan 2011

danke, werde mir RegEX anschauen.

dein letztes Statement ist mir aber nicht ganz klar:
Du musst IRGENDWAS mit Threads machen und entscheidest dich für sowas? oO ???

Was meinst Du damit, warum ist dieses Beispiel schlecht. Habe n-Dateien und die werden von verschienden Threads durchsucht.

lg
arnold

XHelp · 13. Jan 2011

Weil dein Verfahren absolut nicht effizient ist. Um einfach irgendwas mit den Threads zu machen gibt es bestimmt bessere Beispiele.

	Titel	Forum	Antworten	Datum
	Index 16 out of bounds for length 16	Allgemeine Java-Themen	22	11. Mrz 2022
	Variablen Liste erstellt und ein Problem mit dem Index	Allgemeine Java-Themen	6	29. Jan 2022
L	Array und Index	Allgemeine Java-Themen	26	15. Jan 2022
H	Collections Aktuellen Index generell und nach Sortierung ausgeben	Allgemeine Java-Themen	6	12. Dez 2020
Y	ArrayListe eingegebenen index entfernen	Allgemeine Java-Themen	1	23. Jan 2020
	warum bekomme ich ein string index out of bounds exception	Allgemeine Java-Themen	17	5. Feb 2019
R	Index in einem Array löschen	Allgemeine Java-Themen	10	27. Apr 2017
R	Index in einem Array löschen	Allgemeine Java-Themen	2	27. Apr 2017
X	Lucene index on disk	Allgemeine Java-Themen	2	20. Jan 2017
B	Hirsch-Index berechnen	Allgemeine Java-Themen	11	7. Nov 2016
V	Compiler-Fehler Exception in thread "AWT-EventQueue-0" java.lang.IndexOutOfBoundsException: Index: 125, Size: 125	Allgemeine Java-Themen	11	13. Okt 2015
D	ArrayList index auf gültigkeit prüfen	Allgemeine Java-Themen	12	14. Jan 2014
W	Problem mit Index in einer for-Schleife	Allgemeine Java-Themen	8	28. Dez 2012
S	Char-index aller Buchstaben..?	Allgemeine Java-Themen	3	29. Jun 2012
H	Index Out of Bounds bei Vector	Allgemeine Java-Themen	4	7. Jun 2012
	Klassen ArrayList Index Integer int	Allgemeine Java-Themen	5	16. Aug 2011
	ArrayList-Error Index: 1 Size:1 - Bitte um Hilfe	Allgemeine Java-Themen	36	18. Mrz 2011
T	Index Fehler	Allgemeine Java-Themen	9	24. Nov 2010
N	Inverted index / inverted list	Allgemeine Java-Themen	2	25. Sep 2010
G	Hibernate search (Lucene) - Index wird nicht rechtzeitig erzeugt?	Allgemeine Java-Themen	2	19. Mai 2010
	Array Index Out of Bounds Exception	Allgemeine Java-Themen	1	9. Dez 2009
B	TreeMap Index !!!	Allgemeine Java-Themen	6	21. Okt 2009
J	fireIndexedPropertyChange(...) Wie gelangt man an den Index?	Allgemeine Java-Themen	2	22. Jul 2009
L	kann in einem array der 1. index größer als der 2. sein?	Allgemeine Java-Themen	10	5. Mai 2009
M	Java applet zusammen mit DHTML z-index Problem	Allgemeine Java-Themen	2	7. Apr 2008
M	Implementation von Zugriffen auf Object[index] in der JVM	Allgemeine Java-Themen	9	6. Dez 2007
M	Index eines Arrays ermitteln und als Integer ausgeben	Allgemeine Java-Themen	7	23. Mrz 2005
O	Mit jsoup Text aus HTML-Datei rausgrabben	Allgemeine Java-Themen	29	2. Jul 2024
	Aus einer jar-Datei eine exe-Datei erzeugen lassen	Allgemeine Java-Themen	37	15. Jun 2024
	StatusBar-Anzeigen auch in Log-Datei ausgeben	Allgemeine Java-Themen	3	4. Jan 2024
G	Maven Projekt JAR-Datei	Allgemeine Java-Themen	6	30. Nov 2023
E	XML - Datei Darstellung in IntelliJ als Baum	Allgemeine Java-Themen	2	24. Okt 2023
	Java Jar datei erstellen, von Projekt, dass auch Javafx Dateien, FXML Dateien und CSS Dateien, sowie Bilder enthält?	Allgemeine Java-Themen	14	21. Mrz 2023
D	Erste Schritte Mp3 Datei kann nicht von der Festplatte geöffnet werden - mit ChatGPT erstellt	Allgemeine Java-Themen	7	19. Jan 2023
J	Filenotfoundexception obwohl Datei existiert	Allgemeine Java-Themen	6	9. Jan 2023
	Java Überprüfen ob .exe-Datei bereits ausgeführt wird	Allgemeine Java-Themen	2	19. Okt 2022
S	.exe Datei/Programm auslesen?	Allgemeine Java-Themen	2	14. Sep 2022
E	Datei verschoben Event	Allgemeine Java-Themen	3	20. Jul 2022
D	Datei mit "Kohsuke GitHub API" in Repository hochladen	Allgemeine Java-Themen	2	20. Jul 2022
S	Bookmark HTML Datei einlesen, alle Links erhalten und manche editieren..? (aktuell JSoup)	Allgemeine Java-Themen	4	7. Jul 2022
	Einzelne Zeile aus einer txt Datei in einem String speichern	Allgemeine Java-Themen	12	30. Mai 2022
G	JavaFX Maven Projekt als .exe Datei exportieren	Allgemeine Java-Themen	10	24. Apr 2022
J	(Geplante) Änderungen an einer Datei vorübergehend speichern und anwenden?	Allgemeine Java-Themen	12	1. Apr 2022
	Datei komprimiert	Allgemeine Java-Themen	6	3. Mrz 2022
G	Obfuscate einer .jar-Datei mit ProGuard?	Allgemeine Java-Themen	2	3. Feb 2022
G	Verknüpfung einer .jar-Datei (liegt z. B. auf dem Desktop) im Autostart-Ordner erstellen?	Allgemeine Java-Themen	20	1. Feb 2022
E	java mithilfe url .jar datei öffnen	Allgemeine Java-Themen	9	3. Jan 2022
E	Java .exe Datei mit args starten	Allgemeine Java-Themen	2	23. Dez 2021
W	Bilder werden in App mit Jar-Datei nicht angezeigt	Allgemeine Java-Themen	15	23. Dez 2021
	Java Datei mehrmals einlesen	Allgemeine Java-Themen	4	11. Nov 2021
M	Excel Datei Erstellen	Allgemeine Java-Themen	2	1. Nov 2021
E	Input/Output Eigene Datei mit java öffnen	Allgemeine Java-Themen	9	16. Okt 2021
R	Sonderzeichen aus Datei einlesen und in Datei ausgeben.	Allgemeine Java-Themen	17	26. Aug 2021
	Download .jar von github lädt kaputte Datei runter	Allgemeine Java-Themen	3	13. Aug 2021
P	Bat Datei in Java ausführen	Allgemeine Java-Themen	2	20. Jul 2021
S	Verwendet Programmiersprache aus Quellcode - Datei ermitteln	Allgemeine Java-Themen	6	3. Jun 2021
T	Problem beim Umwandeln in eine Jar-Datei	Allgemeine Java-Themen	3	18. Mai 2021
J	Jar-Datei ausführen	Allgemeine Java-Themen	7	22. Apr 2021
C	Outlook msg-Datei Anhänge extrahieren	Allgemeine Java-Themen	2	7. Apr 2021
G	Datei aus Ordner wählen, ohne den Dateinamen im Pfad angeben zu müssen	Allgemeine Java-Themen	4	31. Mrz 2021
G	Datei senden via Xmodem an Serial-Port	Allgemeine Java-Themen	35	28. Feb 2021
C	Wav-Datei aus Jar laden?	Allgemeine Java-Themen	11	19. Jan 2021
L	Best Practice Zip Datei aktualisieren	Allgemeine Java-Themen	1	16. Dez 2020
N	Speicherort einer Datei im Explorer ändern	Allgemeine Java-Themen	8	7. Dez 2020
H	Mehrere PNG-Files in einer Datei	Allgemeine Java-Themen	9	10. Nov 2020
	CSV-Datei auslesen in Java	Allgemeine Java-Themen	7	7. Nov 2020
S	createTempFile erstellt keine temporäre Datei	Allgemeine Java-Themen	13	22. Okt 2020
	Jar datei ausführen verursacht NumberFormatException	Allgemeine Java-Themen	9	11. Sep 2020
	bestimmten Dateityp immer mit jar-Datei öffnen	Allgemeine Java-Themen	17	21. Aug 2020
N	Arrayliste in eine Datei speichern	Allgemeine Java-Themen	4	15. Aug 2020
B	.txt Datei erstellen und auslesen bzw. schreiben	Allgemeine Java-Themen	6	14. Aug 2020
J	Öffnen eine jar-Datei	Allgemeine Java-Themen	11	26. Jul 2020
	MP3 Datei abspielen funktioniert nicht	Allgemeine Java-Themen	6	29. Jun 2020
H	ArrayListe in CSV Datei speichern	Allgemeine Java-Themen	6	2. Jun 2020
O	Aus JAR-Datei erstellte EXE-Datei funktioniert nicht	Allgemeine Java-Themen	10	27. Mai 2020
N	Txt Datei auslesen.	Allgemeine Java-Themen	5	14. Mai 2020
B	Datei/Ordner auf Server zugreifen/erstellen	Allgemeine Java-Themen	2	13. Mai 2020
	Datei verschieben hat einen Fehler??	Allgemeine Java-Themen	20	11. Mai 2020
	Erstellungsdatum einer Datei	Allgemeine Java-Themen	10	9. Mai 2020
O	xlsx Datei auslesen mit POI Apache liest keine LEERZELLEN	Allgemeine Java-Themen	6	4. Mai 2020
P	Input/Output entfernte Datei mit Java öffnen ohne Download	Allgemeine Java-Themen	5	3. Mai 2020
O	xlsx Datei auslesen mit POI von Apache wirft seltsamen Fehler.	Allgemeine Java-Themen	11	2. Mai 2020
J	Hilfe, Jar Datei kann nicht ausgeführt werden	Allgemeine Java-Themen	2	29. Apr 2020
M	Programm erkennt String aus .txt Datei nicht	Allgemeine Java-Themen	3	20. Mrz 2020
O	Java-Applikation tut in Netbeans, als JAR nicht, wegen Pfadangaben einer benötigten Datei	Allgemeine Java-Themen	8	18. Mrz 2020
J	Fehlermeldung bei Ausführung von .jar-Datei	Allgemeine Java-Themen	9	13. Mrz 2020
J	Die Letzte Zahl aus einer Text datei lesen	Allgemeine Java-Themen	8	23. Feb 2020
	Compiler-Fehler Datei kann nicht erstellt werden. Die Syntax für den Dateinamen etc. ist falsch.	Allgemeine Java-Themen	2	23. Feb 2020
M	Probleme jar datei.	Allgemeine Java-Themen	2	16. Feb 2020
F	Datei in String-Array einlesen	Allgemeine Java-Themen	8	21. Jan 2020
O	docx-Datei erzeugung mit DocXStamper funktioniert nicht	Allgemeine Java-Themen	2	5. Jan 2020
T	Objekt mit String und Int aus TxT Datei erstellen	Allgemeine Java-Themen	23	19. Dez 2019
	Prüfen ob Datei noch geöffnet ist	Allgemeine Java-Themen	59	3. Dez 2019
I	Temp-Datei wird nicht gelöscht	Allgemeine Java-Themen	12	13. Nov 2019
D	ODS.Datei öffnet leider in Excel	Allgemeine Java-Themen	3	18. Okt 2019
L	JavaFX JavaFX Chart in Apache Poi Excel Datei	Allgemeine Java-Themen	2	16. Sep 2019
D	.txt Datei in .jar Datei speichern	Allgemeine Java-Themen	3	13. Sep 2019
	Blöcke aus Datei filtern/suchen und in neue Datei schreiben	Allgemeine Java-Themen	10	25. Jul 2019
M	Daten aus MatLab Datei lesen	Allgemeine Java-Themen	8	24. Jul 2019
L	SQL Datei in Eclipse erstellen	Allgemeine Java-Themen	3	9. Jul 2019

Index Datei aus HTML-Dateien

ArnoldS

Mitglied

XHelp

Top Contributor

ArnoldS

Mitglied

XHelp

Top Contributor

ArnoldS

Mitglied

XHelp

Top Contributor

ArnoldS

Mitglied

XHelp

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen