Html tabelle auslesen???

1991macl · 4. Jan 2012

Ich möchte aus einer Internetseite eine Tabelle auslesen, z.B. Wikipedia...
Habe das bislang so:

Code:

import org.w3c.tidy.Tidy;
import org.w3c.dom.Node;
import org.w3c.dom.NamedNodeMap;
import java.net.URL;
import java.util.ArrayList;
 
public class Erste{
    public static void printSelectedTags(Node parent, String ... selectedTags){
        for(int i = 0; i < selectedTags.length; i++){
            if(parent.getNodeName().equals(selectedTags[i])){
                NamedNodeMap nmap = parent.getAttributes();
                System.out.print("<" + parent.getNodeName());
                for(int j = 0; j < nmap.getLength(); j++)
                    System.out.print(" " + nmap.item(j).getNodeName() + "=\"" + nmap.item(j).getNodeValue() + "\"");
                System.out.println(">");
            }
        }
 
        for(int i = 0; i < parent.getChildNodes().getLength(); i++)
            printSelectedTags(parent.getChildNodes().item(i), selectedTags);
    }
    
    public static void main(String[] args) throws Exception{
        Tidy t = new Tidy();
        t.setXmlTags(true);
        URL url = new URL("http://de.wikipedia.org/wiki/Deutschland");
        Node rootElement = t.parseDOM(url.openConnection().getInputStream(), null);
        printSelectedTags(rootElement, "tr", "td");
    }
}

Allerdings möchte ich nicht die Informationen von <td style="...".....> sonder dass was zwischen <td style="..."> und </td> steht, also sozusagen den Tabelleninhalt.

Als Beispiel(Wikipedia Deutschland-Artikel):

HTML:

<td style="background-color:#f2f2f4; font-size:90%;" valign="top"><b><a href="/wiki/Hauptstadt" title="Hauptstadt">Hauptstadt</a></b></td>
<td style="font-size:90%;"><a href="/wiki/Berlin" title="Berlin">Berlin</a></td>

)

Da möchte ich nur Hauptstadt und Berlin haben...

Hoffe ich habe es einigermaßen gut erklärt...

1991macl · 12. Jan 2012

Ist es generell nicht möglich oder weiß keiner wie?

Final_Striker · 12. Jan 2012

Da wirst du wohl mit RegEx Ausdrücken arbeiten müssen und so die für dich benötigten Sachen rauszuparsen.

z.B. könntest du alles zwischen

Code:

<td

und nächstem

Code:

einfach rauslöschen.

nillehammer · 12. Jan 2012

Du arbeitest ja schon mit Tidy und w3c-Nodes. Node gibt Dir alles, was Du brauchst. Du musst anhand des Nodetypes verzweigen. Wenn Du bspw. den Text zwischen den tds haben willst, ist die Konstante TEXT_NODE Dein Freund.
Infos gibts hier: Node (Java 2 Platform SE 5.0)

1991macl · 12. Jan 2012

Habe mich jetzt schon ein bisschen damit versucht, es aber noch nicht hinbekommen...
Bin ich aber richtig, dass ich die Methode getTextContent() brauche?
Vielleicht kannst du mir noch ein bisschen mehr helfen, nillehammer?

Aber danke schon mal für eure Beiträge!!!

nillehammer · 13. Jan 2012

Hier mal Code für Dich zum Nachvollziehen, wie man in einen Baum hinabsteigt und abhängig von Nodetypes verzweigt. Der Code ist nicht 100% durchgetestet. Kann also sein, dass kliene logische Fehler drinnen sind. Außerdem könnte es auch sinnvoll sein, an geeigneter Stelle von Node auf Element zu casten, weil es sich damit evtl. bequemer arbeiten lässt.

Java:

private static final String TD = "td";
...
// Den root node hast Du schon in der Variablen rootElement (siehe Dein eigener Code)
final NodeList rootChildren = rootElement.getChildNodes();

findTds(rootChildren);

/**
  * Steigt einen Baum von tags hinab. Sobald ein td-Tag gefunden wurde, 
  * wird dieser zur besonderen Behandlung an eine weitere Methode übergeben
  */
private static void findTds(final NodeList nodeList) {

  for(int i = 0; i<nodeList.getLength(); i++) {
 
    final Node current = nodeList.item(i);

    if( current.getNodeType() != Node.ELEMENT_NODE) { 
      // Wir haben irgendwas anderes als einen Tag. Interessiert uns nicht.
      // Nix machen und zum nächsten Child weiter...
      continue;
    }

    if ( TD.equalsIgnoreCase(current.getNodeValue()) ) {
      // Wir haben einen td gefunden.
      printTextContentOfTd(current);
    }
    
    // rekursiver Aufruf, um weiter in den Baum hinabzusteigen
    findTds(current);
  }

}

/**
  * Geht die Liste der Kinder eines (td-)Nodes durch. Bei allen Textknoten
  * wird der Text auf der Konsole ausgegeben.
  */
private static void printTextContentOfTd(final Node tdNode) {

   final NodeList children = tdNode.getChildNodes();
 
   for( int i = 0; i< children.getLenght(); i++ ) {
     final Node current = children.item(i);
     if (current.getNodeType == Node.TEXT_NODE) {
       System.out.println(current.getNodeValue();
     }
   }
}
}

1991macl · 16. Jan 2012

Habe das Wochenende rumprobiert, es allerdings immer noch nicht hinbekommen...

Könntest du mir einen funktionierenden Quellcode schicken?
Ich weiß dass ich es eigentlich selber machen sollte, bekomme es wie gesagt aber nicht hin...

	Titel	Forum	Antworten	Datum
B	JAXB und HTML	XML & JSON	1	21. Jun 2021
T	HTML mit Hilfe Jsoup einlesen	XML & JSON	11	30. Aug 2018
C	javascript in .html Funktioniert, in .xhtml nicht mehr	XML & JSON	0	23. Aug 2017
M	parsen von realen HTML-WEB-Seiten	XML & JSON	1	15. Nov 2016
P	HTML XPath	XML & JSON	1	22. Jul 2014
K	Einlesen eines Parameters aus HTML-Datei	XML & JSON	4	6. Mrz 2012
	HTML Datei mit SAXBuilder laden hängt sich auf	XML & JSON	4	29. Okt 2011
K	docBook XSLT: HTML Code Snippet in Erzeugte HTML Dokument einfügen	XML & JSON	9	12. Okt 2011
D	Wie XML Datei einlesen und HTML entities übernehmen?	XML & JSON	3	14. Sep 2011
R	Problem bei: XML und XSL zu HTML	XML & JSON	2	22. Aug 2011
T	Möchte JSP Code in Attribut eines HTML Tags hinein generieren	XML & JSON	3	17. Jul 2011
	XML Prettyprinter zu HTML	XML & JSON	3	24. Feb 2011
S	Typsicherer HTML-Parser	XML & JSON	5	8. Feb 2011
S	HTML Parser	XML & JSON	2	19. Dez 2010
F	Probleme beim html parsen mit tagsoup	XML & JSON	4	2. Jul 2010
M	HTML Quellcode verarbeiten	XML & JSON	4	17. Aug 2009
J	DOM zu HTML	XML & JSON	3	16. Jul 2009
S	DOM Parsen Problem mit HTML Sonderzeichen	XML & JSON	4	4. Jul 2009
A	aus xml --> html Problem	XML & JSON	3	16. Jun 2009
M	HTML-Entities	XML & JSON	4	13. Apr 2009
M	Suche HTML-API	XML & JSON	3	18. Mrz 2009
G	Servlet mittels XSL in HTML konvertieren	XML & JSON	5	3. Sep 2008
K	html -> cyberneko -> xml -> jdom .	XML & JSON	3	8. Mai 2008
S	HTML mit dom4j parsen?	XML & JSON	2	6. Feb 2008
M	TextContent eines XML-Elements enthält HTML-Tags . was nun	XML & JSON	2	15. Aug 2007
L	mit Java eine HTML-Datei erstellen	XML & JSON	3	1. Jun 2007
B	html->xslfo->pdf	XML & JSON	5	12. Feb 2007
G	HTML in PDF umwandeln	XML & JSON	9	29. Nov 2006
P	HTML Seite Parsen, und bestimmten Text extrahieren	XML & JSON	3	15. Aug 2006
J	Exception bei "vorselektiertem" HTML	XML & JSON	3	26. Jul 2006
C	HTML-Befehle per Java entfernen	XML & JSON	7	25. Jul 2006
P	HTML-Sting in JDOM	XML & JSON	7	22. Apr 2006
G	HTML -> XML	XML & JSON	2	15. Mrz 2006
A	html-File nach txt-File konvertieren	XML & JSON	15	26. Jan 2006
F	XML Datei als HTML?	XML & JSON	4	21. Dez 2005
	HTML in XML	XML & JSON	3	14. Okt 2005
	HTML to PDF Konventieren	XML & JSON	6	17. Aug 2005
P	HTML mit JDOM erstellen und in JEditorPane zeigen	XML & JSON	4	30. Aug 2004
B	JDom + HTML	XML & JSON	2	1. Jun 2004
B	DOM oder HTML File drucken "wie ein Browser es zeigen w	XML & JSON	3	21. Mai 2004
D	ods./Excel Tabelle oder doch SQL für nen Anfänger?	XML & JSON	5	5. Mrz 2014
L	Mit Hilfe von POI eine Tabelle ohne Rahmen in Word schreiben	XML & JSON	2	22. Nov 2012
	Tabelle auslesen	XML & JSON	2	22. Dez 2011
P	Poi /XSSF : Excel-Tabelle auslesen	XML & JSON	2	19. Mai 2011
D	Datenbank-Tabelle to XML	XML & JSON	11	2. Mrz 2010
L	XML Daten auslesen und in Tabelle (Array) speichern	XML & JSON	1	5. Okt 2009
O	OpenDocument-Tabelle mit Java lesen und schreiben	XML & JSON	3	7. Mai 2007
W	JSON-Datei an bestimmter Stelle auslesen und in txt-File schreiben	XML & JSON	16	23. Jan 2025
L	JSON auslesen und Labels in GUI verwenden	XML & JSON	13	20. Sep 2022
M	json page 2 auslesen	XML & JSON	1	12. Nov 2018
J	Auslesen der Länge einer XML-Datei in Android Studio	XML & JSON	8	16. Mai 2018
	Eingabefelder von Excel Dateien auslesen	XML & JSON	1	7. Apr 2018
K	XML vernünftig auslesen	XML & JSON	9	26. Feb 2018
K	XML Datei erstellen und Daten daraus in Java auslesen	XML & JSON	6	25. Jul 2017
H	SOAPBody auslesen	XML & JSON	0	17. Nov 2016
B	XML auslesen, benötige Hilfe	XML & JSON	13	21. Aug 2016
I	Liste in YAML Datei speichern und wieder auslesen	XML & JSON	1	28. Jul 2016
W	XML einlesen und Attribute auslesen	XML & JSON	1	21. Jul 2016
A	Leeres Array beim Auslesen von XML-Datei	XML & JSON	4	22. Jun 2016
M	Json auslesen	XML & JSON	7	13. Apr 2016
K	XML Auslesen, wie abspeichern?	XML & JSON	32	12. Apr 2016
D	Attribute aus XML Auslesen	XML & JSON	5	11. Aug 2015
W	Kindelemente mit JDOM eines bestimmten Attributes auslesen	XML & JSON	6	3. Mrz 2015
R	Apache POI: Gezieltes Auslesen von Zellen	XML & JSON	2	19. Mai 2014
S	XMl auslesen:@ output ?	XML & JSON	1	10. Mai 2014
Z	Verschachtelte XML auslesen	XML & JSON	3	30. Apr 2014
C	JDOM: Value ohne Unterelemente auslesen	XML & JSON	1	20. Dez 2013
C	XPath: Alle Kinder in einer Schleife auslesen	XML & JSON	2	3. Dez 2013
I	XML IDs auslesen, erst X dann Y	XML & JSON	2	30. Nov 2012
S	XML - rekursives auslesen - Zeilenumbruch als NodeValue?	XML & JSON	3	27. Nov 2012
O	XML richtig auslesen	XML & JSON	7	2. Jul 2012
	XML Tag-ID auslesen mit getElementById	XML & JSON	2	28. Jun 2012
J	Excel zeilenweise auslesen - POI	XML & JSON	5	12. Jun 2012
J	Excel Zellen auslesen - automatischer Stopp bei leerer Zelle	XML & JSON	2	6. Jun 2012
I	XPath Namensräume und auslesen einzelner Knoten	XML & JSON	3	21. Mai 2012
S	SVG auslesen und darstellen	XML & JSON	5	26. Feb 2012
G	xpath: in Kindelement zwei Attribut-Werte auslesen	XML & JSON	2	24. Jan 2012
G	xpath: Inhalt eines Kindelements auslesen	XML & JSON	2	24. Jan 2012
A	XSl mit JDom auslesen	XML & JSON	1	12. Dez 2011
J	Anzahl der Elemente in einem XML-Dokument auslesen	XML & JSON	7	3. Jun 2011
K	XMl auslesen	XML & JSON	19	30. Mai 2011
S	XSD-Datei zulässige Werte auslesen	XML & JSON	3	18. Mai 2011
D	rss auslesen	XML & JSON	2	9. Mai 2011
S	Attribute von Elementen auslesen mit XPath	XML & JSON	2	6. Mai 2011
M	Große Datei auslesen/in dieser suchen	XML & JSON	2	7. Apr 2011
M	RSS-Datei auslesen von Yahoo Webservice	XML & JSON	4	20. Mrz 2011
N	Google Wetter XML (nur current_condition) auslesen mit Java	XML & JSON	15	13. Jan 2011
J	Dateinamen beim Start auslesen	XML & JSON	8	24. Nov 2010
	XML Jaxen Attribute auslesen	XML & JSON	2	18. Okt 2010
E	XML Datei mit DOM auslesen (Text mit Attributen)	XML & JSON	2	16. Sep 2010
P	jdom XML-Encoding auslesen	XML & JSON	12	6. Jul 2010
H	XML Attribute auslesen	XML & JSON	5	19. Jun 2010
	Bestimmten Wert aus einer XML Auslesen	XML & JSON	34	21. Apr 2010
L	XML Dokument auslesen funktioniert nicht richtig	XML & JSON	2	19. Sep 2009
C	Attributwert aus XML auslesen	XML & JSON	10	27. Jul 2009
H	XML String auslesen	XML & JSON	4	26. Jul 2009
E	XML Knoten mit rekursiver Methode auslesen	XML & JSON	3	17. Jul 2009
S	Dom Baum auslesen	XML & JSON	12	16. Jul 2009
J	Properties auslesen (Jar)	XML & JSON	1	12. Jul 2009
S	auslesen	XML & JSON	9	12. Apr 2009

Html tabelle auslesen???

1991macl

Mitglied

1991macl

Mitglied

Final_Striker

Top Contributor

nillehammer

Gast

1991macl

Mitglied

nillehammer

Gast

1991macl

Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen