wie soll Löschen von Code in Dokumenten gehen?

Status
Nicht offen für weitere Antworten.

agchaos

Mitglied
Hallo!

Ich bin dabei ein Programm zu schreiben, dass mir die sinnlosen Formatierungen von Word in HTML-Dokumenten löscht.

Da die Dokus nur in Word und dann mittels Speichern unter HTML Dokument geschrieben werden, muss ich die gesamten Konvertierungen die zb. nach <html ....> usw löschen.

Dabei habe ich schon daran gedacht das mit replace zu machen, wobei ich aber nicht weiter komme, da die Dinge nach <html ...> immer unterschiedlich sind.

z.b.

Code:
 <head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=ProgId content=Word.Document>
<meta name=Generator content="Microsoft Word 9">
<meta name=Originator content="Microsoft Word 9">
<link rel=File-List href="./Tabelle-Dateien/filelist.xml">
<title>TY</title>
<!--[if gte mso 9]><xml>
 <o:DocumentProperties>
  <o:Author>systema</o:Author>
  <o:LastAuthor>systema</o:LastAuthor>
  <o:Revision>1</o:Revision>
  <o:Created>2006-08-03T12:14:00Z</o:Created>
 <w:Wor
<style>
<!--
 /* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal

-->
</style>
</head>

und daraus soll werden
Code:
<head>
<title>TY</title>
</head>

Habt Ihr einen Tip oder Idee wie ich das machen kann?
Habe auch schon nen Tokenizer geschrieben, aber der hilft dabei auch nicht weiter.

Danke Anne
 

Wildcard

Top Contributor
Hmm, ich glaube ich versteh das nicht richtig.
Was genau willst du an der HTML Seite denn ändern? Was soll gelöscht werden?
Ich meine, wenn du zB die Style Definitionen entfernst ist das Ergebnis mit Sicherheit nicht das was du haben wolltest ???:L
 

agchaos

Mitglied
Doch so soll es sein, weil sie noch ein ein stylesheet bekommen. Das Problem ist, dass die Konvertierungen unnötig sind für meine Zwecke, denn die machen die Files nur riesig, so dass sie später nicht mehr geladen werden können, ohne lange zu warten.

Ich habe auch schon versucht das mit replace und einem substring zu machen, doch da man hier mir indexen arbeiten muss, komme ich damit nicht klar

Code:
sb.replace(sb.indexOf(zu_loeschender_text),sb.indexOf(ende_zu_loeschender_text),replace_text));

Doch löscht der das nur beim ersten auffinden eines texte. Wenn ich z.B. zehnmal im text

Code:
<td lalalalal> </td>
<td blubs> </td>

soll das hinter den td gelöscht werden.

Mit Index würde es gehen, wenn ich wüßte, wie man die dann weiter geben kann, so dass er alle td im Text findet und die Substrings dahinter entfernt.

Anne
 

Wildcard

Top Contributor
Du willst also das alles was hinter des Names eines Tags steht entfernt wird?
Ich glaube zwar nicht das es nachher noch funktionieren wird, aber mit RegEx ist das möglich.
 

Wildcard

Top Contributor
Die entsprechenden Klassen sind Pattern und Matcher.
Damit könntest du (ungetestet) zum Beispiel ein Tag von seinen Attributen trennen können:
Code:
Pattern p = Pattern.compile("(<.+?)\\s?.*?(>)");
group(1) würde zum Beispiel "<_TD" matchen, und group(2) "_>"
Die underscores musste ich wegen der Boardsoftware machen :wink:
 

Wildcard

Top Contributor
ok, dieser AUsdruck liefert zum Beispiel folgende Matches:
Code:
(<[\\w/]+)\\s?.*?.?(>)
Code:
Eingabe: <html blupp><TD this is a test>sada</TD></html>
Ausgabe:
Found 4 match(es):

start=0, end=12
Group(0) = <html blupp>
Group(1) = <html
Group(2) = >

start=12, end=31
Group(0) = <TD this is a test>
Group(1) = <TD
Group(2) = >

start=35, end=40
Group(0) = </TD>
Group(1) = </TD
Group(2) = >

start=40, end=47
Group(0) = </html>
Group(1) = </html
Group(2) = >
 

agchaos

Mitglied
Mit der Methode verschwindet ja leider auch mein gesamter text, den ich eigentlich dazwischen stehen haben möchte. Trotzdem danke für die Idee.
 

Wildcard

Top Contributor
Das sollte dir eigentlich nur als Beispiel dienen :) Das alleine reicht natürlich noch nicht.
Eine andere Möglichkeit währe natürlich alles mit einem XML Parser einzulesen und die Attribute im XML-Model rauszuwerfen.
Das dürfte zuverlässiger sein als Pattern-Matching.
 

agchaos

Mitglied
Jetzt ist doch noch ein Problem aufgetaucht, bei dem Ihr mir vielleicht weiter helfen könnt.

Soweit funktioniert jetzt alles mit Pattern und Matchen, doch folgendes
Code:
<html xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:w="urn:schemas-microsoft-com:office:word"
xmlns="http://www.w3.org/TR/REC-html40">
habe ich z.b. in einem StringBuffer stehen.

Code:
 String txt = sb.toString();
txt = txt.replaceAll("<html.*?>,"");

ist mein Java-Code für das Ersetzen des gesamten Strings oben, doch leider funktioniert das nicht, da der Schluss des Tags nicht gefunden wird, da er nicht in der selben Zeile steht wie in der öffnende.

Ich weiss es soll Multiline als flag geben, doch weiss ich nicht wie ich das anwenden soll. Alle Versuche sind leider gescheitert.

Habt ihr eine Idee?

Anne
 

agchaos

Mitglied
Hi ich nochmal.

Ich habe das Problem jetzt genauer ermittelt.

Beim Lesen des Files habe ich folgendes implementiert
Code:
       Sting text="";
                try {
     		String line;
      		BufferedReader br = new BufferedReader(new FileReader(file));
     		while ((line=br.readLine())!= null){
     			text = sb.append(line+"\n").toString();     			
     		}
     		br.close();
     	} catch (IOException e){
     		System.out.print("No file! \n");
     	}
Das Problem bingt der "\n" mit sich, wenn ich den rauslösche, dann funktioniert alles so wie ich es mir gedacht habe, aber ist dann nicht mehr lesbar.

Kann man der Replace-Methode nicht irgendwie mitteilen, dass diese die Umbrüche überlesen soll und in der nächsten Zeile weitersuchen soll?
Bisher habe ich
Code:
 text = text.replaceAll("<html.*?>","<html>");

Habt ihr einen Vorschlag?
Da mein HTML-Quelltext ohne diese Umbrüche absolut nicht bearbeitbar ist.

Danke

Anne
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
J Problem mit einer Methode die gewissen Inhalt einer Array löschen soll Java Basics - Anfänger-Themen 9
M Java Datei soll sich selbst löschen Java Basics - Anfänger-Themen 8
D Bei Event soll Instanz sich selbst löschen Java Basics - Anfänger-Themen 4
B Objekt soll sich selbst löschen Java Basics - Anfänger-Themen 25
G JTable bei aktivieren einer Zelle soll Text selektiert werden. Java Basics - Anfänger-Themen 24
Ü Methode soll Quadrat aus der Summer zurückgeben Java Basics - Anfänger-Themen 10
DrahtEck Schleife soll wieder da anfangen wo ich es möchte ! Java Basics - Anfänger-Themen 17
T Methode soll etwas ausrechnen und zurückgeben (klappt nd) hat wer eine Idee? Java Basics - Anfänger-Themen 11
Com.Roter Wie soll ich lernen? Java Basics - Anfänger-Themen 17
T code so schreiben das er von sich selber anpasst (code soll die anzahl aller bustaben bestimmen) Java Basics - Anfänger-Themen 16
T float soll durch schleife die größte mögliche Zahl herausfinden, Ausgabe ist aber "Infinity" Java Basics - Anfänger-Themen 1
I aus 2 random zahlen soll nur die ungerade summe der beiden genommen werden. Java Basics - Anfänger-Themen 13
H Erste Schritte Nach einer Zahl n soll n Mal der String untereinander ausgegeben werden Java Basics - Anfänger-Themen 3
berserkerdq2 Warum soll ich shuffle nutzen, um bei Rückgabewert Collection eine Liste zurückzugeben? Java Basics - Anfänger-Themen 3
berserkerdq2 Wann soll ich den Stream schließen, wenn ich das in einer Methode habe? Java Basics - Anfänger-Themen 8
A String split funktioniert nicht, wenn mehr als 1 Ziffer vor dem Zeichen steht nach dem er trennen soll? Java Basics - Anfänger-Themen 4
M Bei nach oben scrollen soll Seite aktualisiert werden (Userscript mit Javascript) Java Basics - Anfänger-Themen 10
R App soll selbstständig reagieren, anstatt via Models Java Basics - Anfänger-Themen 0
A Wenn eine Zahl durch 7 teilbar ist, soll statt der Zahl ein ‘*‘ angezeigt werden. java? Java Basics - Anfänger-Themen 47
C Ein Algorithmus soll schneller werden Java Basics - Anfänger-Themen 24
K Ein Objekt Auto kennt den Inhalt seines links und rechtsstehenden Autos, wie soll man das ermöglichen Java Basics - Anfänger-Themen 2
HeiTim Brauche Hilfe soll ein nummeriertes Feld ausgeben lassen Java Basics - Anfänger-Themen 17
O Ich habe einen String und soll mit matches schauen, ob ein Buchstabe zu einer geraden ANzahl im String vorkommt, wie soll das gehen? Java Basics - Anfänger-Themen 7
O Ich ahbe einen char und diesen soll ich bei .matches prüfen, also ob der char in meiner Zeichenkette vorhanden ist, wie mache ich das? Java Basics - Anfänger-Themen 9
B Java Programm soll mit Python kommunizeren Java Basics - Anfänger-Themen 1
J Kreis soll die gleiche Fläche wie das Rechteck haben wie mache ich das? Java Basics - Anfänger-Themen 3
MichelNeedhelp Brauche zu diesem Labyrinth ein Skript? Der Hamster soll im Urzeigersinn das ganze Labyrinth abgehen und wieder an seinem Ursprungsplatz sein. Java Basics - Anfänger-Themen 40
J Problem mit einer Methode, die beliebig viele Objekte in Array speichern soll Java Basics - Anfänger-Themen 6
F Java Programm, das kleine Buchstaben in einem String zählen soll und bei großen Buchstaben oder Sonderzeichen abbrechen soll. Java Basics - Anfänger-Themen 5
kazzam94 Methode soll Array von Boolean zurückgeben Java Basics - Anfänger-Themen 5
S Scanner soll Groß-/ Kleinschreibung ignorieren Java Basics - Anfänger-Themen 2
E Division von BigInteger soll Gelitkommazahl liefern Java Basics - Anfänger-Themen 46
M Unterklasse soll nicht alle Methoden erben Java Basics - Anfänger-Themen 3
E Methode soll andere Methode der selben Klasse aufrufen Java Basics - Anfänger-Themen 28
S Vergleichen ob der Integer der benutzt eingeben werden soll überhaupt ein int ist Java Basics - Anfänger-Themen 1
C Ganzzahlige Werte in Boolean ausgeben und überprüfen ob Primzahl oder nicht, wenn es keine Primzahl ist soll es die Primfaktorzerlegung ausgeben Java Basics - Anfänger-Themen 4
E Kreis soll eine Raupe darstellen Java Basics - Anfänger-Themen 37
V Erste Schritte for-Schleife; Ausgabe soll alle 5 Sekunden erfolgen. Java Basics - Anfänger-Themen 4
H Koordinateneingabe im 2D Array soll true/false zurückgeben Java Basics - Anfänger-Themen 5
D Etwas unsicher wie es weitergehen soll Java Basics - Anfänger-Themen 2
N Bewegtes Objekt soll sich um eine Parallele bewegen Java Basics - Anfänger-Themen 0
B Button soll sowohl auf Klicken als auch auf die Enter-Taste reagieren Java Basics - Anfänger-Themen 9
B Derzeit JSF - Projekt, später soll MobileApp folgen Java Basics - Anfänger-Themen 5
scratchy1 Wie deklariert man eine Methode, die ein Objekt zurückgeben soll? Java Basics - Anfänger-Themen 22
V Vererbung Subklasse soll Superklasse verändern Java Basics - Anfänger-Themen 2
T Random soll Zufallszahl beibehalten. Java Basics - Anfänger-Themen 11
C Objekt soll ein Array sein. Java Basics - Anfänger-Themen 15
N Ich weiß nicht, wie ich meinen Code richtig designen soll und komme nicht weiter Java Basics - Anfänger-Themen 4
K Zufalsszahl soll sich nicht wiederholen Java Basics - Anfänger-Themen 9
W Eigener Iterator soll mehrdimensionales Array durchlaufen Java Basics - Anfänger-Themen 4
P Methode soll Variable einer anderen Klasse ändern. Wie? Java Basics - Anfänger-Themen 1
J Kopierte Datei soll alte ersetzen. Java Basics - Anfänger-Themen 6
A Variablen Main Klasse soll auf eine andere Klasse zugreifen Java Basics - Anfänger-Themen 3
I Programm tut nicht was es soll :) Java Basics - Anfänger-Themen 5
Tommy135 Klassen jComboBox macht nicht was sie soll Java Basics - Anfänger-Themen 4
D JButton soll Farbe von JTextfield ändern Java Basics - Anfänger-Themen 5
R While-Schleife macht nicht was sie soll Java Basics - Anfänger-Themen 24
kilopack15 Methode soll int-Array zurückgeben Java Basics - Anfänger-Themen 2
S Variable in JTextField soll immer um 5 zunehmen Java Basics - Anfänger-Themen 8
S JButton soll für bestimmte Zeit verschwinden Java Basics - Anfänger-Themen 5
J-Gallus Ein Getter bekommt eine anderen Type als er Return soll Java Basics - Anfänger-Themen 9
L Bei falscher Eingabe soll NaN zurückgegeben werden, Rückgabetyp jedoch double Java Basics - Anfänger-Themen 3
W drawLine(...) - Linie soll nur begrenzt lang sein Java Basics - Anfänger-Themen 9
I Fenster A soll Fenster B schliessen Java Basics - Anfänger-Themen 5
A Variablen Variable soll ihren Wert nach Initialisierung nicht mehr ändern Java Basics - Anfänger-Themen 2
TheMenox Methoden Bestimmung an welche Methode eine andere Methode ihren Wert weitergeben soll Java Basics - Anfänger-Themen 35
M Exception soll Werte mitgeliefert bekommen Java Basics - Anfänger-Themen 12
K Objekt soll Anwendung über Änderungen informieren Java Basics - Anfänger-Themen 8
X Einfache Frage; wie soll ich die spezielle float var speichern? Java Basics - Anfänger-Themen 2
C Ein Button soll Focus rausfinden und Methode starten Java Basics - Anfänger-Themen 9
M Panel erstellen, welches ein Control erhält. Ausgabe soll über einen Stream erfolgen. Java Basics - Anfänger-Themen 0
K Variablenname soll der Inhalt vom String sein Java Basics - Anfänger-Themen 2
K Wie lange kann / soll das dauern? Java Basics - Anfänger-Themen 6
R Button soll Wert 1 in Variable schreiben Java Basics - Anfänger-Themen 4
J Interface Bubblesort soll Arrays beliebiger Referenztypen sortieren können. Java Basics - Anfänger-Themen 5
T Array soll Werte aufnehmen Java Basics - Anfänger-Themen 2
B Anwender soll mathematische Funktion eingeben können, Einfachster Fnktionsplotter Java Basics - Anfänger-Themen 4
E Erste Schritte [Noob-Frage] Meine If-Abfrage macht nicht, was sie soll... Java Basics - Anfänger-Themen 2
S Generische Methode soll Objekte als Parameter erlauben die bestimmtes Interface implementieren^ Java Basics - Anfänger-Themen 9
M Weiß nicht, wie ich es nennen soll. Java Basics - Anfänger-Themen 1
T Wenn Schaltjahr ist, soll Februar, einen Tag mehr haben, GUI mit combobox Java Basics - Anfänger-Themen 4
H Erste Schritte Ergebniss soll kleiner als 1000 sein Java Basics - Anfänger-Themen 4
M Warum soll man die Finanlize Methode nicht überschreiben und aufrufen? Java Basics - Anfänger-Themen 2
W Erste Schritte Timer soll jede Sekunde Label aktualisieren Java Basics - Anfänger-Themen 5
T BufferReader soll datei mehrmals lesen Java Basics - Anfänger-Themen 13
M CompareTo soll Datum sortieren Java Basics - Anfänger-Themen 2
S Maus soll Programm nicht verlassen Java Basics - Anfänger-Themen 1
V Was soll alles in den Konstruktor? Java Basics - Anfänger-Themen 3
E Einfache For-Schleife macht nicht was sie soll Java Basics - Anfänger-Themen 2
Sogomn Wie soll ich weiermachen? Java Basics - Anfänger-Themen 4
E Erste Schritte Array soll kleiner werdenden String erstellen Java Basics - Anfänger-Themen 5
S Methoden Methode soll String zurückgeben Java Basics - Anfänger-Themen 11
C Wo soll die Methode hin? Java Basics - Anfänger-Themen 2
A scan.nextLine() - Wenn man zu lange nichts macht, soll etwas passieren Java Basics - Anfänger-Themen 3
C Erste Schritte Boolsche For-Schleife soll Ausgaben mitzählen Java Basics - Anfänger-Themen 8
S Ein Rechteck soll an einer Seite gespiegelt werden. Java Basics - Anfänger-Themen 5
B Collections Collection soll nur einen bestimmten Datentyp aufnehmen Java Basics - Anfänger-Themen 12
G Erste Schritte Action soll zwei sachen ausführen Java Basics - Anfänger-Themen 7
B Array soll an Konstruktor übergeben werden..Hilfe! Java Basics - Anfänger-Themen 16
D Break funktioniert nicht so wie es soll Java Basics - Anfänger-Themen 8

Ähnliche Java Themen

Neue Themen


Oben