Web Mining - XML Filter der richtige Anstatz?

Status
Nicht offen für weitere Antworten.

SchachFritz

Aktives Mitglied
Guten Tag.
Ich möchte HTML Seiten filtern, so dass nur noch die wichtigsten Informationen in Textform übrig bleiben. Das heisst, dass ich alle Angaben wie z.b. Schrift, Absätze und Bilder löschen muss. Ich dachte mir ein guter Ansatz wäre das HTML in XML umzuwandeln. Um nachher, das Dokument besser zu strukturien, so dass man auf Anhieb die wichtigesten Informationen findet. Daraus würde sich dann so eine Art "Web Mining" ergeben. Ich glaube wenn man dieses XML Dokument sauber in einem JTree darstellen würde, so wäre es für den User ohne Probleme möglich sich zurecht zu finden. Bin mir jedoch nicht sicher ob XML auch wirklech der beste Ansatz ist.

Bei meinen Recherchen bin ich auf Technologien wie JDOM, JTidy und ähnliches gestossen. Ich weiss jedoch nicht wie ich diese Technologien benutzen soll um das HTML zu filtern. Es muss doch auch bereits existierende APIs dafür geben. (Bin ja nicht der Erste der auf solche eine Idee gekommen ist :))

Ich wäre froh wenn Ihr mir ein paar Tips zu existierenden APIs geben könnte. Eine Diskussion über diesen XML Ansatz würde mir auch weiterhelfen.

Vielen Dank.
SchachFritz.
 

LoN_Nemesis

Bekanntes Mitglied
Wäre es nicht einfacher, alle Tags rauszulöschen? Falls du Text von Bildern oder so auch noch brauchst, dann kannst du ja da ein Sonderfall drausmachen, aber prinzipiell steht doch bei HTML jeder normale Text einfach mit Tags umschlossen da. Also sowas wie <font color="#ff0000" size=2000><div align=center>MEINE HOMEPAGE</font></div>. Wenn du alle Strings löschst, die mit <anfangen und mit > enden, so sollte doch der eigentliche Inhaltstext übrig bleiben.
 
G

Guest

Gast
Um das HTML, welches meist kein wohlgeformtes XML ist, trotzdem als solches Parsen zu können verwendest du JTidy. Danach kannst du mit dem Ergebnis weiter arbeiten als wäre schon die Ausgangslage XML. Mit XSLT könntest du das XML dann so umwandeln, dass du nur noch die Struktur darin hast und keine Formatierung mehr. Dazu machst du dir ein XSL-Template und für die Transformation nimmst du Xalan. Das Ganze sollte sich nun leicht in einem JTree darstellen lassen indem du rekursiv durch dein Dokument gehst und dabei das Model des JTree aufbaust.
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
J String Filter Java Basics - Anfänger-Themen 5
M Streams filter Java Basics - Anfänger-Themen 15
A Filter Java Basics - Anfänger-Themen 11
iman Eingabe von Benutzer Filter machen. Java Basics - Anfänger-Themen 7
S Java Filter und Query Java Basics - Anfänger-Themen 4
S JTable - Filter an anderen Colums Java Basics - Anfänger-Themen 2
P Liste mit Lücken mittels Filter aggregieren Java Basics - Anfänger-Themen 7
T Erste Schritte MongoDB Filter Klasse fehlt Java Basics - Anfänger-Themen 0
C Erste Schritte Filter für Generics oder ähnliches Java Basics - Anfänger-Themen 2
R SQL ähnlicher Filter für Java Listen Java Basics - Anfänger-Themen 2
S Array-Filter Java Basics - Anfänger-Themen 11
G Apache POI Filter erstellen Java Basics - Anfänger-Themen 14
T Datei Filter inkl. Unterverzeichnisse Java Basics - Anfänger-Themen 3
O JFileChooser Filter an Dateinamen hängen Java Basics - Anfänger-Themen 4
M Kann man im Filter nach mehreren Strings filtern lassen Java Basics - Anfänger-Themen 11
H Bau eines Filter für geparste Strings. Java Basics - Anfänger-Themen 4
M Filter-Klasse Java Basics - Anfänger-Themen 3
G filter: import-problem mit eclipse Java Basics - Anfänger-Themen 5
KogoroMori21 Wann ist der richtige Zeitpunkt, um sich Hilfe zu suchen? (Bin Informatik-Student) Java Basics - Anfänger-Themen 10
J Layout Manager, welcher ist der Richtige für mein Program? Java Basics - Anfänger-Themen 1
M Kennt jemand die richtige Lösung? Java Basics - Anfänger-Themen 7
R Ist Java das Richtige für mich? Java Basics - Anfänger-Themen 4
A Java die richtige Programmiersprache für mein Projekt? Java Basics - Anfänger-Themen 1
C Lotto 3, 4, 5, 6 Richtige nach x Ziehungen ermittelt.. Java Basics - Anfänger-Themen 7
D Richtige Kommentierung Klassenvariablen Java Basics - Anfänger-Themen 19
G Die richtige Methode aus einer DTO auszurufen Java Basics - Anfänger-Themen 27
E Die richtige Suche in der API Java Basics - Anfänger-Themen 1
L Richtige Reihenfolge der Dateien Java Basics - Anfänger-Themen 5
L Collections Ist eine Arraylist hier das richtige? Java Basics - Anfänger-Themen 12
E Mastermind programmieren, wie den falschen Platz aber richtige Farbe schecken? Java Basics - Anfänger-Themen 23
A OOP Richtige Verwendung von ArrayList und equals Java Basics - Anfänger-Themen 24
I Richtige Java-Version finden? Java Basics - Anfänger-Themen 17
Meeresgott Richtige Dokumentation Java Basics - Anfänger-Themen 1
Meeresgott Richtige Dokumentation Java Basics - Anfänger-Themen 22
P Klassen Richtige Anwendung einer Enum-Klasse Java Basics - Anfänger-Themen 11
H Ist Java überhaupt die richtige Sprache für das Projekt? Java Basics - Anfänger-Themen 8
G Lambda Ausdruck: Welche Methode ist die Richtige? Java Basics - Anfänger-Themen 1
A richtige Kombination aus Werte- und Referenztypen Java Basics - Anfänger-Themen 63
J Erste Schritte Verständnisfrage im Bezug auf das (richtige) Programmieren Java Basics - Anfänger-Themen 5
E Richtige Ausgabe nur mit toString() - Warum? Java Basics - Anfänger-Themen 4
S Das richtige Format für den SOAP Zugriff Java Basics - Anfänger-Themen 0
K Welche Java Version ist die richtige Java Basics - Anfänger-Themen 3
X Methoden Wort aus String löschen und richtige Verschachtelung Java Basics - Anfänger-Themen 17
X Ist Java für mich das richtige? Java Basics - Anfänger-Themen 10
D Simulation von Geburt/Tod und "richtige" Erkennung eines Hindernisses Java Basics - Anfänger-Themen 7
F In ArrayList wird nicht der richtige Wert gespeichert Java Basics - Anfänger-Themen 6
S Richtige String-Variable finden Java Basics - Anfänger-Themen 3
K Richtige Pfadangabe einer Textdatei Java Basics - Anfänger-Themen 7
P Ist Java die richtige Programmiersprache dafür? Java Basics - Anfänger-Themen 29
Dit_ invokeLater | richtige Anwendung Java Basics - Anfänger-Themen 2
L eine richtige anfänger-frage Java Basics - Anfänger-Themen 3
J FileOutputStream richtige Pfadangabe? Java Basics - Anfänger-Themen 8
D Der richtige Layout Manager Java Basics - Anfänger-Themen 8
P Keine richtige Codeabarbeitung?! Java Basics - Anfänger-Themen 9
U Richtige Benutzung der API-Doku Java Basics - Anfänger-Themen 8
G Richtige Syntax für Bruch Java Basics - Anfänger-Themen 12
N Anfängerfrage richtige Syntax und Frage zu Vector Java Basics - Anfänger-Themen 7
G Polymorphismus und die richtige Anwendung Java Basics - Anfänger-Themen 6
B Ist Java das richtige für mich? Java Basics - Anfänger-Themen 12
W Java das richtige? Java Basics - Anfänger-Themen 9
L JTabbedPane, richtige Übergabe von Tabs Java Basics - Anfänger-Themen 18
M Welche Javaversion ist die Richtige? Java Basics - Anfänger-Themen 14
S Java Games Programieren. Der richtige Weg dorthin. Java Basics - Anfänger-Themen 4
M Java die richtige Sprache? Java Basics - Anfänger-Themen 4
W Java Web Start das richtige? Java Basics - Anfänger-Themen 11
J Richtige Auagabe in einer *.txt Java Basics - Anfänger-Themen 2
B Ist Java das richtige für folgendes Programm! Java Basics - Anfänger-Themen 2
T Bild drehen + richtige größe berechnen Java Basics - Anfänger-Themen 4
M Richtige Paarungen aus Array ausgeben Java Basics - Anfänger-Themen 2
S richtige antworten [%] ausgabe Java Basics - Anfänger-Themen 7
bernd Richtige Pfadangabe für das Kopieren von Dateien Java Basics - Anfänger-Themen 10
A Java wirklich das richtige? Java Basics - Anfänger-Themen 20
B Paar richtige Anfängerfragen Java Basics - Anfänger-Themen 7

Ähnliche Java Themen

Neue Themen


Oben