Hallo!
Ich bin dabei ein Programm zu schreiben, dass mir die sinnlosen Formatierungen von Word in HTML-Dokumenten löscht.
Da die Dokus nur in Word und dann mittels Speichern unter HTML Dokument geschrieben werden, muss ich die gesamten Konvertierungen die zb. nach <html ....> usw löschen.
Dabei habe ich schon daran gedacht das mit replace zu machen, wobei ich aber nicht weiter komme, da die Dinge nach <html ...> immer unterschiedlich sind.
z.b.
und daraus soll werden
Habt Ihr einen Tip oder Idee wie ich das machen kann?
Habe auch schon nen Tokenizer geschrieben, aber der hilft dabei auch nicht weiter.
Danke Anne
Ich bin dabei ein Programm zu schreiben, dass mir die sinnlosen Formatierungen von Word in HTML-Dokumenten löscht.
Da die Dokus nur in Word und dann mittels Speichern unter HTML Dokument geschrieben werden, muss ich die gesamten Konvertierungen die zb. nach <html ....> usw löschen.
Dabei habe ich schon daran gedacht das mit replace zu machen, wobei ich aber nicht weiter komme, da die Dinge nach <html ...> immer unterschiedlich sind.
z.b.
Code:
<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=ProgId content=Word.Document>
<meta name=Generator content="Microsoft Word 9">
<meta name=Originator content="Microsoft Word 9">
<link rel=File-List href="./Tabelle-Dateien/filelist.xml">
<title>TY</title>
<!--[if gte mso 9]><xml>
<o:DocumentProperties>
<o:Author>systema</o:Author>
<o:LastAuthor>systema</o:LastAuthor>
<o:Revision>1</o:Revision>
<o:Created>2006-08-03T12:14:00Z</o:Created>
<w:Wor
<style>
<!--
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
-->
</style>
</head>
und daraus soll werden
Code:
<head>
<title>TY</title>
</head>
Habt Ihr einen Tip oder Idee wie ich das machen kann?
Habe auch schon nen Tokenizer geschrieben, aber der hilft dabei auch nicht weiter.
Danke Anne