HTML Quellcode verarbeiten

Status
Nicht offen für weitere Antworten.

Markus_

Mitglied
Hallo,

eigentlich weniger ein Java als mehr ein Problem mit XSLT Transformern, aber ich versuch es mal:

Ich möchte ein html Dokument mit XSLT verarbeiten (Benutze dafür Xalan). Leider ist das HTML Dokument syntaktisch nur fast ein XML, und zwar möchte ich, dass beim Parsen des Dokumentes Kommentare und <script> Tags (samt Inhalt) einfach ignoriert werden.
Also suche ich irgendwelche Parameter etc., die ich meinem Tranformer mitgeben könnte, hat da irgendjemand eine Idee oder schon mal was gehört?

Besten Dank
Markus_
 

Markus_

Mitglied
Kann rein theoretisch auch ein beliebiger XML Parser sein, zum Beispiel ein STAX Parser wo man im Handler angeben kann, dass bei Element x einfach ans Ende von x gegangen werden soll.
 

Noctarius

Top Contributor
Leider ist das HTML Dokument syntaktisch nur fast ein XML ...

Ist das Dokument nach XHTML Standard validierbar ist es XML von vorne bis hinten. Leider ist das nur bei den meisten Webseiten nicht der Fall, weil dank Browser-Kompatibilitäten (oder waren es Inkompatibilitäten) massig Hacks einfließen.

Was du versuchen kannst ist den HTML Baum aufzusplitten und das Ganze als einen sauberen XML Baum zu speichern. Im Anschluss eben XSLT Transformations rüber schicken.
 

Markus_

Mitglied
Das Problem an der Seite ist JavaScript bzw genauer Tags wie:
HTML:
<script ...>
...
document.write('<scr'+' ... ></scr>');
</script>
D.h. <'scr'+ usw. ist ungültiges XML. Ich hoffte, dass vlt. jemand einen SAX/StAX Parser kennt, den (über Erweiterungen etc) so verändern kann, dass er beim Parsen bestimmte Tags einfach überspringt.

Letztendlich brauche ich das Dokument jedoch nur einmal zu scannen, daher lohnt es nicht, das Dokument vorzuverarbeiten. Nun, da muss ich wohl meinen eigenen Scanner schreiben der genau das tut, was ich will (hätte mir halt gewünscht, irgendwas wiederverwerten zu können ^^)
 
J

JohannisderKaeufer

Gast
Wie wäre es per RegExp die Script-Tags zu entfernen.

Das Dokument als String einlesen. xmlString

String.replaceAll(String regex, String replacement)

String bereinigterXmlString = xmlString.replaceAll("<script.*</script>","");

Als kleine Anregung
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
B JAXB und HTML XML & JSON 1
T HTML mit Hilfe Jsoup einlesen XML & JSON 11
C javascript in .html Funktioniert, in .xhtml nicht mehr XML & JSON 0
M parsen von realen HTML-WEB-Seiten XML & JSON 1
P HTML XPath XML & JSON 1
K Einlesen eines Parameters aus HTML-Datei XML & JSON 4
1 Html tabelle auslesen??? XML & JSON 6
Airwolf89 HTML Datei mit SAXBuilder laden hängt sich auf XML & JSON 4
K docBook XSLT: HTML Code Snippet in Erzeugte HTML Dokument einfügen XML & JSON 9
D Wie XML Datei einlesen und HTML entities übernehmen? XML & JSON 3
R Problem bei: XML und XSL zu HTML XML & JSON 2
T Möchte JSP Code in Attribut eines HTML Tags hinein generieren XML & JSON 3
slawaweis XML Prettyprinter zu HTML XML & JSON 3
S Typsicherer HTML-Parser XML & JSON 5
S HTML Parser XML & JSON 2
F Probleme beim html parsen mit tagsoup XML & JSON 4
J DOM zu HTML XML & JSON 3
S DOM Parsen Problem mit HTML Sonderzeichen XML & JSON 4
A aus xml --> html Problem XML & JSON 3
M HTML-Entities XML & JSON 4
M Suche HTML-API XML & JSON 3
G Servlet mittels XSL in HTML konvertieren XML & JSON 5
K html -> cyberneko -> xml -> jdom . XML & JSON 3
S HTML mit dom4j parsen? XML & JSON 2
M TextContent eines XML-Elements enthält HTML-Tags . was nun XML & JSON 2
L mit Java eine HTML-Datei erstellen XML & JSON 3
B html->xslfo->pdf XML & JSON 5
G HTML in PDF umwandeln XML & JSON 9
P HTML Seite Parsen, und bestimmten Text extrahieren XML & JSON 3
J Exception bei "vorselektiertem" HTML XML & JSON 3
C HTML-Befehle per Java entfernen XML & JSON 7
P HTML-Sting in JDOM XML & JSON 7
G HTML -> XML XML & JSON 2
A html-File nach txt-File konvertieren XML & JSON 15
F XML Datei als HTML? XML & JSON 4
flashfactor HTML in XML XML & JSON 3
FsMarine HTML to PDF Konventieren XML & JSON 6
P HTML mit JDOM erstellen und in JEditorPane zeigen XML & JSON 4
B JDom + HTML XML & JSON 2
B DOM oder HTML File drucken "wie ein Browser es zeigen w XML & JSON 3
B XML-Daten mit SAX Parser verarbeiten in Java XML & JSON 4
Z XML Datei mit JDOM einlesen und verarbeiten XML & JSON 6
X XSL verarbeiten XML & JSON 2
X Am Server ankommende XML Daten verarbeiten XML & JSON 11
multiholle XML Datei elegant verarbeiten XML & JSON 14
FsMarine XSD Verarbeiten XML & JSON 2
D Riesen-XML-Datei verarbeiten XML & JSON 9

Ähnliche Java Themen

Neue Themen


Oben