Webseite (HTML) Parser gesucht

Status
Nicht offen für weitere Antworten.

Taneeda

Aktives Mitglied
Hi Leute,

Ich suche derzeit eine Möglichkeit eine Website oder URL (index.html oder so) zu parser. Genauer, ich würde gerne die jeweilige Seite anfordern, sprich z.B. die index Datei einer URL und diese dann durch den parser laufen lassen, welcher mir dann im Idealfall die URL zu den media daten im Dokument liefert, also Bilder, Videos, Musik, etc ...

Technische benötige ich eine API oder etwas dergleichen in Java. Gibt es etwas in dieser Richtung schon?

Gruß
 
G

Gelöschtes Mitglied 5909

Gast
Sample Programs

The example programs included with the HTML Parser distribution are listed below, with some details.

Code:
// HTMLParser Library $Name: v1_6 $ - A java-based parser for HTML
// [url]http://sourceforge.org/projects/htmlparser[/url]
// Copyright (C) 2003 Derrick Oswald
//
// Revision Control Information
//
// $Source: /cvsroot/htmlparser/htmlparser/src/org/htmlparser/parserapplications/LinkExtractor.java,v $
// $Author: derrickoswald $
// $Date: 2005/04/12 11:27:41 $
// $Revision: 1.52 $
//
// This library is free software; you can redistribute it and/or
// modify it under the terms of the GNU Lesser General Public
// License as published by the Free Software Foundation; either
// version 2.1 of the License, or (at your option) any later version.
//
// This library is distributed in the hope that it will be useful,
// but WITHOUT ANY WARRANTY; without even the implied warranty of
// MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
// Lesser General Public License for more details.
//
// You should have received a copy of the GNU Lesser General Public
// License along with this library; if not, write to the Free Software
// Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA
//

package org.htmlparser.parserapplications;

import javax.swing.JOptionPane;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

/**
 * LinkExtractor extracts all the links from the given webpage
 * and prints them on standard output.
 */
public class LinkExtractor
{
    /**
     * Run the link extractor.
     * @param args [0] Optional url to extract links from.
     * An input dialog is displayed if it is not supplied.
     */
    public static void main (String[] args)
    {
        String url;
        Parser parser;
        NodeFilter filter;
        NodeList list;

        if (0 >= args.length)
        {
            url = (String)JOptionPane.showInputDialog (
                null,
                "Enter the URL to extract links from:",
                "Web Site",
                JOptionPane.PLAIN_MESSAGE,
                null,
                null,
                "http://htmlparser.sourceforge.net/wiki/");
            if (null == url)
                System.exit (1);
        }
        else
            url = args[0];
        filter = new NodeClassFilter (LinkTag.class);
        if ((1 < args.length) && args[1].equalsIgnoreCase ("-maillinks"))
            filter = new AndFilter (
                filter,
                new NodeFilter ()
                {
                    public boolean accept (Node node)
                    {
                        return (((LinkTag)node).isMailLink ());
                    }
                }
            );
        try
        {
            parser = new Parser (url);
            list = parser.extractAllNodesThatMatch (filter);
            for (int i = 0; i < list.size (); i++)
                System.out.println (list.elementAt (i).toHtml ());
        }
        catch (ParserException e)
        {
            e.printStackTrace ();
        }
        System.exit (0);
    }
}


guggstu in package org.htmlparser.parserapplications;
 

Taneeda

Aktives Mitglied
hmm, hab das Beispiel mal getestet, liefert aber nicht alles...
kann man da auch die background tags der tabellen elemente als links mit einbeziehen?
 

Johny

Mitglied
Ich habe ähnliches Problem,

ich möchte z.b. alle link (A) (IMG) oder (FORM) tags aus einem Dokument haben.
dachte an so eine funktion wie getElementsByName("img") von wo aus ich sie dann ansprechen kann.

Nun habe ich nach nem HTML DOM Parser gesucht
und so ca zwei Hände voll gefunden.
HtmlEditorKid kann es wohl nicht
Java Mozilla HTML Parser scheint nen bischen gross zu sein
htmlparser.sourceforge.net ist der gut ?
vielleicht JTidy oder ein anderer ?
Welcher taugt etwas und welcher nicht ? wieso gibt es keine "onBoard" Lösung ?
 

newcron

Aktives Mitglied
Ich kann dir TagSoup empfehlen. Das ist ein SAX Parser, der extrem robust gegenüber schlechtem Markup ist. (fehlende Endtags, falsch angegebene Encodings, falsche verschachtelung, attributwerte die nicht in hochkommata geschrieben wurden, etc.)
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
S HTML einer Webseite 1:1 so bekommen wie es auch der Browser anzeigt? Allgemeine Java-Themen 14
M HTML-Code von Webseite über Browser oder Console auslesen?? Allgemeine Java-Themen 5
Ernesto95 HTTP Mit JavaScript erzeugte dynamische Webseite auslesen und nach einem Schlüsselwort durchsuchen Allgemeine Java-Themen 6
I Vom Monolith zu Services in einer Webseite Allgemeine Java-Themen 1
torresbig Url nach Webseiten-Login auslesen & Daten an Webseite senden Allgemeine Java-Themen 9
Lukasbsc JDA-Bot Webseite aufrufen Allgemeine Java-Themen 0
J JSON Daten von einer Webseite erhalten Allgemeine Java-Themen 2
L Echtzeitdaten aus einer Webseite ziehen mit Java Allgemeine Java-Themen 19
x46 Webseite in Java auslesen Allgemeine Java-Themen 2
M Login in eine Webseite mit Java Allgemeine Java-Themen 3
C Webseite auslesen Allgemeine Java-Themen 3
X HTTP Auslesen der Ergebnisse von einer Webseite und in eine Liste packen Allgemeine Java-Themen 1
L String von Webseite herunterladen Allgemeine Java-Themen 4
R Login auf einer SSL-Webseite Allgemeine Java-Themen 7
L Jsp: Vorherige Webseite ermitteln Allgemeine Java-Themen 4
D Java Script webseite Asufüllen Allgemeine Java-Themen 3
X Applet läuft nicht, Applet in Webseite einbinden Allgemeine Java-Themen 4
I Webseite auslesen (welche mittels Javascript Inhalt einbindet) Allgemeine Java-Themen 4
D Webseite wird nicht immer komplett ausgelesen Allgemeine Java-Themen 11
U Servlet in Webseite einbinden Allgemeine Java-Themen 1
W Webseite öffnen und Link anklicken Allgemeine Java-Themen 2
T Zeit von einem Server/Webseite auslesen und in eigener GUI anzeigen Allgemeine Java-Themen 6
C Komponenten einer WebSeite Allgemeine Java-Themen 4
S Mittels eines Applets Bilder generieren die in einer Webseite angezeigt werden..? Allgemeine Java-Themen 8
Taschenschieber Webseite im Browser öffnen Allgemeine Java-Themen 3
L Session auf einer Webseite halten Allgemeine Java-Themen 6
G Mit Java und HTTPClient auf Webseite einloggen Allgemeine Java-Themen 4
D Bilder einer Webseite herunterladen Allgemeine Java-Themen 2
M Webseite speichern Allgemeine Java-Themen 3
R Von Java aus Browser Fenster oeffnen und Webseite ausgeben? Allgemeine Java-Themen 2
U Communityfunktionen für vorhandene Webseite Allgemeine Java-Themen 2
S Webseite auslesen Allgemeine Java-Themen 20
L Anfrage an eine Webseite Allgemeine Java-Themen 5
S Fehler beim Einlesen einer Webseite mit 1.4 Allgemeine Java-Themen 3
C Webseite laden aber mit Cookie Allgemeine Java-Themen 2
A "Webseite-Inhalt" ins Arabische&Französische ü Allgemeine Java-Themen 2
T Webseite öffnen per Knopfdruck Allgemeine Java-Themen 2
S Über ein String eine Webseite in eine Datei umleiten Howto? Allgemeine Java-Themen 8
S Bookmark HTML Datei einlesen, alle Links erhalten und manche editieren..? (aktuell JSoup) Allgemeine Java-Themen 4
C Parsen einer sich updatenden Html mithilfe von jsoup Allgemeine Java-Themen 4
I HTML / XHTML Seite nach Excel exportieren. Suche Lib Allgemeine Java-Themen 12
F Kennt ihr eine Library um 2 HTML Seiten zu diffen? Allgemeine Java-Themen 8
K HTMLEditor HTML Text in Rich Text umwandeln Allgemeine Java-Themen 14
N Value Wert aus HTML-Button mittels thymeleaf spring an java übergeben Allgemeine Java-Themen 2
N Lottowebsite programmieren mittels Java, HTML,.... Allgemeine Java-Themen 7
S HTML den ich von einer URL hole nicht identisch mit dem HTML im Browser Allgemeine Java-Themen 1
M Html Seite auslesen Allgemeine Java-Themen 16
Developer_X Website HTML Code von HTTPS URL laden Allgemeine Java-Themen 0
L HTML Formular ausführen Allgemeine Java-Themen 1
J Auslesen Daten Java/HTML Allgemeine Java-Themen 15
A Applet in HTML einbinden Allgemeine Java-Themen 1
KeVoZ_ JSoup - HTML Tag entfernen Allgemeine Java-Themen 1
I HTML einer Website auslesen liefert nur head Allgemeine Java-Themen 6
perlenfischer1984 HTML Code decodieren Allgemeine Java-Themen 2
stylegangsta Mehrere html seiten einer Homepage einlesen und als Textdatei ausgeben Allgemeine Java-Themen 14
P HTML Text bearbeiten Allgemeine Java-Themen 1
A Probleme beim auslesen von Quelltext (HTML) Allgemeine Java-Themen 5
OnDemand String aus html einlesen Allgemeine Java-Themen 2
OnDemand Substring einer HTML Seite will nicht Allgemeine Java-Themen 5
S Applet in html laden; InvocationTargetException,.. nur warum ? Allgemeine Java-Themen 0
R HTML Tabelle durchsuchen Allgemeine Java-Themen 3
L Erste Schritte Eclipse und Lokal funktioniert - in HTML nicht! Allgemeine Java-Themen 2
T Keyword Highlighting in HTML Allgemeine Java-Themen 5
B Best Practice HTML Output Optimal implementieren Allgemeine Java-Themen 3
A jEditorPane Html Datei öffnen (code) Allgemeine Java-Themen 3
Y Applet/Html - Wie Java-Methode aufrufen, die einen Parameter erwartet? Allgemeine Java-Themen 3
H HTML Parsing errors Allgemeine Java-Themen 9
P Aktuellen HTML Code auslesen (von JS manipuliert) Allgemeine Java-Themen 3
S Robuste Methode um Text von HTML code zu extrahieren..? Allgemeine Java-Themen 6
S Bekomme mit Scanner und URL keine Html-Seite ausgelesen Allgemeine Java-Themen 3
C JEditorPane langsam großes HTML Allgemeine Java-Themen 8
M html aus aktuellem Browserfenster mitlesen lassen Allgemeine Java-Themen 5
T Kann HTML Datei nicht lesen Allgemeine Java-Themen 3
S HTML-Quelltext nach bestimmter Stelle durchsuchen Allgemeine Java-Themen 2
B HTML Tags in Strings umwandeln Allgemeine Java-Themen 4
S BufferedReader/PrintWriter an einer HTML Allgemeine Java-Themen 6
T HTML Tag Position mittels Pattern ermitteln Allgemeine Java-Themen 7
C Attribute aus HTML Tags auslesen Allgemeine Java-Themen 6
M Wicket Html Allgemeine Java-Themen 2
S Fehler beim ausführen des HTML Allgemeine Java-Themen 7
S Fehler Applet-HTML Allgemeine Java-Themen 5
B suchfunktion in html integrieren Allgemeine Java-Themen 3
DEvent Wieso ist Javadoc mit Html Tags? Allgemeine Java-Themen 47
P RegEx mit HTML Parser für Java möglich? Allgemeine Java-Themen 10
B RTF zu HTML Allgemeine Java-Themen 3
S Von HTML-Seite den Titel bekommen Allgemeine Java-Themen 2
M .jar in HTML einbinden Allgemeine Java-Themen 5
H Kleiner HTML Parser (Facharbeit) Allgemeine Java-Themen 11
K iText, HTML Einrückung im Document, aber nicht im Paragraph Allgemeine Java-Themen 3
J Überprüfen ob URL eine HTML Datei referenziert Allgemeine Java-Themen 4
E Zeilenumbruch html Allgemeine Java-Themen 3
J URLs aus HTML Datei extrahieren Allgemeine Java-Themen 2
G Swing JEditorPaneAppender (Output im HTML-Format) Allgemeine Java-Themen 12
W Java Anwendung in HTML Allgemeine Java-Themen 2
M Html Unit Whitespace-Problem Allgemeine Java-Themen 4
J HTML-Sonderzeichen ersetzen Allgemeine Java-Themen 2
M HTML-Websiten verarbeiten Allgemeine Java-Themen 8
A Index Datei aus HTML-Dateien Allgemeine Java-Themen 7
S HTML => DOM - Welcher Parser für meine Zwecke? Allgemeine Java-Themen 3
I HTML Seite laden Allgemeine Java-Themen 6

Ähnliche Java Themen

Neue Themen


Oben