JTidy html "hidden" Button drücken

Status
Nicht offen für weitere Antworten.

eicon11

Aktives Mitglied
Hallo, ich versuche gerade für die Uni einen Web Spider zu entwickeln der Internetseiten ausließt und ihre Inhalte Speichert um sie für die Suche zugänglich zumachen.

Kann ich mit jTidy auch irgendwie Buttons betätigen ? Vor allem wenn da sowas steht wie

<input type="hidden" name="showDialog" value="" />

Vielleicht ist die Frage ein bischen blöd gestellt, aber ich kenne mich mit HTML nur sehr bedingt aus...


Gruß eicon11
 

SebiB90

Top Contributor
das ist kein Button und das ist nichts wo man drauf klicken kann oder ähnliches.
Die hidden Fields gibts nur um "feste" Werte dem Formular mitzugeben.
 

eicon11

Aktives Mitglied
Doch es ist schon ein Button auf den ich drücken muss, vielleicht gehörte der Code auch nicht dazu.
Wie kann ich denn einen Button mit jTidy drücken ?
 

sayang

Aktives Mitglied
Ein Button kann über mehrere Arten gemacht werden. Z.B. mit dem <form>-Tag.

Angenommen, du bist auf der Seite h t t p://w w w.die-domain.de/hiersindwir.php. Im auf der Seite befindet sich ein Formular, das sich vll. so definiert:

<form action="dahingehts.php" method="post">
<input type="hidden" name="parm1" value="value1">
<input type="submit" name="derButton" value="los jetzt">
</form>

Im action-Attribut des form-Tags siehst du, wohin das Formular verlinkt. Ist z. B. eine Php-Seite. Dann gibts noch einen versteckten Parameter namens "parm1" mit dem Wert "value1". Außerdem gibts den Button selbst. Der hat nen Namen "derButton" und den Wert "los jetzt".

Man kann jetzt versuchen, aus diesen Informationen eine URL zu basteln - inkl. der Parameter. Die wäre dann
h t t p://w w w.die-domain.de/dahingehts.php?parm1=value1&derButton=los%20jetzt (%20 ist eine Kodierung für die Leerstelle).

Es gibt aber jede Menge anderer Möglichkeiten, so einen Button zu basteln. Mit Javascript im Hintergrund und und und. Wenn du das alles implementieren willst, dann bist du schon sehr nah an der Implementierung, die jeder Browser schon hat, denn mit einem Klick auf den Button sagst du dem Browser ja nur, dass du den Button geklickt hast. Der Browser interpretiert dann den HTML- und ggf. JavaScript-Code und initiiert eine HTTP-Transaktion.

Lg
sayang
 
Zuletzt bearbeitet:

hama

Mitglied
Hallo,

ich möchte eine Webseite zugreifen und danach sie parsen lassen!
Man kann sie direkt nicht parsen (z.B. mit Hilfe einen XSLT-Parser), weil sie nicht wohlgeformt strukturiert ist ("es ist ein HTML")!. Deswegen braucht man sie zuerst in die so gennante XHTML zu konvertieren und dann sie zu parsen.
Ich habe versucht sie nach dem Auslesen mit Hilfe von JTidy in XHTML umwandeln, aber ohne erfolg! wie folgt:

Tidy tidy = new Tidy();
tidy.setMakeClean( true ); // Ohne Störungen
tidy.setXmlTags( true ); // Eingabe als XML behandeln

URL url;
url = new URL( "Die HTML Seite" );
Reader inputStream = new InputStreamReader( url.openStream() );
BufferedReader in = new BufferedReader( inputStream );
for ( String s; ( s = in.readLine() ) != null; ){

FileOutputStream out= new FileOutputStream(s);

ByteArrayInputStream is = new ByteArrayInputStream(s.getBytes("UTF-8"));
Document doc = tidy.parseDOM( is, out);
}

Und ich bekomme im Trace diese Fehlermeldung, wie folgt:

org.w3c.tidy.DOMDocumentImpl@e746a2
org.w3c.tidy.DOMDocumentImpl@1ce56f8
line 1 column 5 - Warning: replacing illegal character code 131
line 1 column 5 - Warning: replacing illegal character code 131
org.w3c.tidy.DOMDocumentImpl@1afbbe3
org.w3c.tidy.DOMDocumentImpl@584e97
org.w3c.tidy.DOMDocumentImpl@18fc7ca
org.w3c.tidy.DOMDocumentImpl@85bf5f
org.w3c.tidy.DOMDocumentImpl@d733ca
org.w3c.tidy.DOMDocumentImpl@891d76
org.w3c.tidy.DOMDocumentImpl@1ed4d06
org.w3c.tidy.DOMDocumentImpl@5bece2
org.w3c.tidy.DOMDocumentImpl@11cf4e5
org.w3c.tidy.DOMDocumentImpl@121e5a
Characters codes for the Microsoft Windows fonts in the range
128 - 159 may not be recognized on other platforms. You are
instead recommended to use named entities, e.g. &trade; rather
than Windows character code 153 (0x2122 in Unicode). Note that
as of February 1998 few browsers support the new entities."

line 1 column 1 - Warning: unexpected </head>
org.w3c.tidy.DOMDocumentImpl@3abc87
org.w3c.tidy.DOMDocumentImpl@2f5dda
org.w3c.tidy.DOMDocumentImpl@1bad2e8
org.w3c.tidy.DOMDocumentImpl@6c8255
org.w3c.tidy.DOMDocumentImpl@1e0bf98
org.w3c.tidy.DOMDocumentImpl@42bb13
line 1 column 22 - Warning: replacing illegal character code 131
line 1 column 159 - Warning: unexpected </a> in <img>
This document has errors that must be fixed before
using HTML Tidy to generate a tidied up version.


org.w3c.tidy.DOMDocumentImpl@107e4bc
Characters codes for the Microsoft Windows fonts in the range
128 - 159 may not be recognized on other platforms. You are
instead recommended to use named entities, e.g. &trade; rather
than Windows character code 153 (0x2122 in Unicode). Note that
as of February 1998 few browsers support the new entities."

line 1 column 1 - Warning: unexpected </div>
org.w3c.tidy.DOMDocumentImpl@139f953
org.w3c.tidy.DOMDocumentImpl@11fb8c6
org.w3c.tidy.DOMDocumentImpl@19bd1ca
org.w3c.tidy.DOMDocumentImpl@ea58e3
org.w3c.tidy.DOMDocumentImpl@171ccb0
org.w3c.tidy.DOMDocumentImpl@35378d
org.w3c.tidy.DOMDocumentImpl@1d23632
line 1 column 1 - Warning: replacing illegal character code 131
line 1 column 1 - Warning: replacing illegal character code 131
org.w3c.tidy.DOMDocumentImpl@1e42d5a
org.w3c.tidy.DOMDocumentImpl@190c5c0
org.w3c.tidy.DOMDocumentImpl@1a6c214
org.w3c.tidy.DOMDocumentImpl@10fba26
Characters codes for the Microsoft Windows fonts in the range
128 - 159 may not be recognized on other platforms. You are
instead recommended to use named entities, e.g. &trade; rather
than Windows character code 153 (0x2122 in Unicode). Note that
as of February 1998 few browsers support the new entities."

line 1 column 201 - Warning: unexpected </a> in <img>
line 1 column 205 - Warning: unexpected </noscript> in <img>
This document has errors that must be fixed before
using HTML Tidy to generate a tidied up version.
...

Ich werde sehr dankbar, wenn Du mir helfen kannst!
schöne Grüße,
Hama
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
S Bookmark HTML Datei einlesen, alle Links erhalten und manche editieren..? (aktuell JSoup) Allgemeine Java-Themen 4
S HTML einer Webseite 1:1 so bekommen wie es auch der Browser anzeigt? Allgemeine Java-Themen 14
C Parsen einer sich updatenden Html mithilfe von jsoup Allgemeine Java-Themen 4
I HTML / XHTML Seite nach Excel exportieren. Suche Lib Allgemeine Java-Themen 12
F Kennt ihr eine Library um 2 HTML Seiten zu diffen? Allgemeine Java-Themen 8
K HTMLEditor HTML Text in Rich Text umwandeln Allgemeine Java-Themen 14
N Value Wert aus HTML-Button mittels thymeleaf spring an java übergeben Allgemeine Java-Themen 2
N Lottowebsite programmieren mittels Java, HTML,.... Allgemeine Java-Themen 7
S HTML den ich von einer URL hole nicht identisch mit dem HTML im Browser Allgemeine Java-Themen 1
M Html Seite auslesen Allgemeine Java-Themen 16
Developer_X Website HTML Code von HTTPS URL laden Allgemeine Java-Themen 0
L HTML Formular ausführen Allgemeine Java-Themen 1
J Auslesen Daten Java/HTML Allgemeine Java-Themen 15
A Applet in HTML einbinden Allgemeine Java-Themen 1
KeVoZ_ JSoup - HTML Tag entfernen Allgemeine Java-Themen 1
I HTML einer Website auslesen liefert nur head Allgemeine Java-Themen 6
perlenfischer1984 HTML Code decodieren Allgemeine Java-Themen 2
stylegangsta Mehrere html seiten einer Homepage einlesen und als Textdatei ausgeben Allgemeine Java-Themen 14
P HTML Text bearbeiten Allgemeine Java-Themen 1
A Probleme beim auslesen von Quelltext (HTML) Allgemeine Java-Themen 5
OnDemand String aus html einlesen Allgemeine Java-Themen 2
OnDemand Substring einer HTML Seite will nicht Allgemeine Java-Themen 5
S Applet in html laden; InvocationTargetException,.. nur warum ? Allgemeine Java-Themen 0
R HTML Tabelle durchsuchen Allgemeine Java-Themen 3
L Erste Schritte Eclipse und Lokal funktioniert - in HTML nicht! Allgemeine Java-Themen 2
T Keyword Highlighting in HTML Allgemeine Java-Themen 5
B Best Practice HTML Output Optimal implementieren Allgemeine Java-Themen 3
A jEditorPane Html Datei öffnen (code) Allgemeine Java-Themen 3
Y Applet/Html - Wie Java-Methode aufrufen, die einen Parameter erwartet? Allgemeine Java-Themen 3
H HTML Parsing errors Allgemeine Java-Themen 9
P Aktuellen HTML Code auslesen (von JS manipuliert) Allgemeine Java-Themen 3
M HTML-Code von Webseite über Browser oder Console auslesen?? Allgemeine Java-Themen 5
S Robuste Methode um Text von HTML code zu extrahieren..? Allgemeine Java-Themen 6
S Bekomme mit Scanner und URL keine Html-Seite ausgelesen Allgemeine Java-Themen 3
C JEditorPane langsam großes HTML Allgemeine Java-Themen 8
M html aus aktuellem Browserfenster mitlesen lassen Allgemeine Java-Themen 5
T Kann HTML Datei nicht lesen Allgemeine Java-Themen 3
S HTML-Quelltext nach bestimmter Stelle durchsuchen Allgemeine Java-Themen 2
B HTML Tags in Strings umwandeln Allgemeine Java-Themen 4
S BufferedReader/PrintWriter an einer HTML Allgemeine Java-Themen 6
T HTML Tag Position mittels Pattern ermitteln Allgemeine Java-Themen 7
C Attribute aus HTML Tags auslesen Allgemeine Java-Themen 6
M Wicket Html Allgemeine Java-Themen 2
S Fehler beim ausführen des HTML Allgemeine Java-Themen 7
S Fehler Applet-HTML Allgemeine Java-Themen 5
B suchfunktion in html integrieren Allgemeine Java-Themen 3
DEvent Wieso ist Javadoc mit Html Tags? Allgemeine Java-Themen 47
P RegEx mit HTML Parser für Java möglich? Allgemeine Java-Themen 10
B RTF zu HTML Allgemeine Java-Themen 3
S Von HTML-Seite den Titel bekommen Allgemeine Java-Themen 2
M .jar in HTML einbinden Allgemeine Java-Themen 5
H Kleiner HTML Parser (Facharbeit) Allgemeine Java-Themen 11
K iText, HTML Einrückung im Document, aber nicht im Paragraph Allgemeine Java-Themen 3
J Überprüfen ob URL eine HTML Datei referenziert Allgemeine Java-Themen 4
E Zeilenumbruch html Allgemeine Java-Themen 3
J URLs aus HTML Datei extrahieren Allgemeine Java-Themen 2
G Swing JEditorPaneAppender (Output im HTML-Format) Allgemeine Java-Themen 12
W Java Anwendung in HTML Allgemeine Java-Themen 2
M Html Unit Whitespace-Problem Allgemeine Java-Themen 4
J HTML-Sonderzeichen ersetzen Allgemeine Java-Themen 2
M HTML-Websiten verarbeiten Allgemeine Java-Themen 8
A Index Datei aus HTML-Dateien Allgemeine Java-Themen 7
S HTML => DOM - Welcher Parser für meine Zwecke? Allgemeine Java-Themen 3
I HTML Seite laden Allgemeine Java-Themen 6
W Saubere Lösung für das Auslesen einer Html Seite (Mehrsprachigkeit) Allgemeine Java-Themen 5
M String in Html Text umwandeln Allgemeine Java-Themen 2
S Formatierungen aus HTML-Dokument übernehmen und in Word docx schreiben Allgemeine Java-Themen 3
E HTML File mit Umlaute einlesen Allgemeine Java-Themen 8
T HTML Parser Allgemeine Java-Themen 7
E Regex HTML Tag und Inhalt löschen Allgemeine Java-Themen 4
S Swing mit JEditorPane per HTML auf Bilder in JAR zugreifen. Allgemeine Java-Themen 3
S Regulärer Ausdruck für HTML-Tag Allgemeine Java-Themen 18
H Java Methode zum HTML encodieren/decodieren Allgemeine Java-Themen 2
Daniel_L Bug in Copy-Funktion bei HTML-Editorpane? Allgemeine Java-Themen 4
M JApplet einbinden in HTML Allgemeine Java-Themen 19
F Problem mit regulären Ausdruck in Zusammenhang mit HTML Allgemeine Java-Themen 8
T JavaScript aus HTML im JEditorPane ausführen? Allgemeine Java-Themen 5
S PDF nach HTML oder XML Allgemeine Java-Themen 2
O Tastendrücke in verstecktes HTML-Formular schreiben Allgemeine Java-Themen 4
D Strings von HTML befreien Allgemeine Java-Themen 17
A HTML-Seite aufrufen, drucken und zum Programm zurückkehren Allgemeine Java-Themen 2
E Html tags entfernen optimieren Allgemeine Java-Themen 12
Q API zum Verarbeiten von HTML Allgemeine Java-Themen 4
DerEisteeTrinker PDF mit seiner Formatierung in HTML umwandeln Allgemeine Java-Themen 15
B Java in HTML stellen Allgemeine Java-Themen 11
M id aus HTML (Regex) Allgemeine Java-Themen 7
D HTML mit Java verknüpfen Allgemeine Java-Themen 2
W HTML-Pfad Allgemeine Java-Themen 4
G HTML-Datei einlesen, Plain Text in Textfile speichern Allgemeine Java-Themen 4
A HTML-Seite wieder schließen Allgemeine Java-Themen 2
faetzminator Regex zur Suche von "value-losen" Attributen in HTML Tags Allgemeine Java-Themen 7
data89 Java und HTML-Seiten mit Bildern - Wie passt das zusammen? Allgemeine Java-Themen 2
C Applet: JFileChooser: PFad an HTML zürückgeben Allgemeine Java-Themen 4
T Webseite (HTML) Parser gesucht Allgemeine Java-Themen 8
Daniel_L RegEx: UBB in HTML konvertieren, Problem Verschachtelung Allgemeine Java-Themen 3
T html Datei in jrxml Datei (JasperReports) umwandeln Allgemeine Java-Themen 6
J Seltsame Exception beim Java Applet einbinden in Html Allgemeine Java-Themen 2
G Import von HTML-Dateien Allgemeine Java-Themen 5
MQue Tidy HTML baum durchlaufen Allgemeine Java-Themen 5
MQue Werte in eine html- Datei schreiben Allgemeine Java-Themen 17

Ähnliche Java Themen

Neue Themen


Oben