wie soll Löschen von Code in Dokumenten gehen?

agchaos · 7. Aug 2006

Hallo!

Ich bin dabei ein Programm zu schreiben, dass mir die sinnlosen Formatierungen von Word in HTML-Dokumenten löscht.

Da die Dokus nur in Word und dann mittels Speichern unter HTML Dokument geschrieben werden, muss ich die gesamten Konvertierungen die zb. nach <html ....> usw löschen.

Dabei habe ich schon daran gedacht das mit replace zu machen, wobei ich aber nicht weiter komme, da die Dinge nach <html ...> immer unterschiedlich sind.

z.b.

Code:

 <head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=ProgId content=Word.Document>
<meta name=Generator content="Microsoft Word 9">
<meta name=Originator content="Microsoft Word 9">
<link rel=File-List href="./Tabelle-Dateien/filelist.xml">
<title>TY</title>
<!--[if gte mso 9]><xml>
 <o:DocumentProperties>
  <o:Author>systema</o:Author>
  <o:LastAuthor>systema</o:LastAuthor>
  <o:Revision>1</o:Revision>
  <o:Created>2006-08-03T12:14:00Z</o:Created>
 <w:Wor
<style>
<!--
 /* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal

-->
</style>
</head>

und daraus soll werden

Code:

<head>
<title>TY</title>
</head>

Habt Ihr einen Tip oder Idee wie ich das machen kann?
Habe auch schon nen Tokenizer geschrieben, aber der hilft dabei auch nicht weiter.

Danke Anne

Wildcard · 7. Aug 2006

Hmm, ich glaube ich versteh das nicht richtig.
Was genau willst du an der HTML Seite denn ändern? Was soll gelöscht werden?
Ich meine, wenn du zB die Style Definitionen entfernst ist das Ergebnis mit Sicherheit nicht das was du haben wolltest ???:L

agchaos · 7. Aug 2006

Doch so soll es sein, weil sie noch ein ein stylesheet bekommen. Das Problem ist, dass die Konvertierungen unnötig sind für meine Zwecke, denn die machen die Files nur riesig, so dass sie später nicht mehr geladen werden können, ohne lange zu warten.

Ich habe auch schon versucht das mit replace und einem substring zu machen, doch da man hier mir indexen arbeiten muss, komme ich damit nicht klar

Code:

sb.replace(sb.indexOf(zu_loeschender_text),sb.indexOf(ende_zu_loeschender_text),replace_text));

Doch löscht der das nur beim ersten auffinden eines texte. Wenn ich z.B. zehnmal im text

Code:

<td lalalalal> </td>
<td blubs> </td>

soll das hinter den td gelöscht werden.

Mit Index würde es gehen, wenn ich wüßte, wie man die dann weiter geben kann, so dass er alle td im Text findet und die Substrings dahinter entfernt.

Anne

Wildcard · 7. Aug 2006

Du willst also das alles was hinter des Names eines Tags steht entfernt wird?
Ich glaube zwar nicht das es nachher noch funktionieren wird, aber mit RegEx ist das möglich.

agchaos · 7. Aug 2006

Genau das möchte ich. Ich muss mal nachschauen was RegEx ist.

Wildcard · 7. Aug 2006

Die entsprechenden Klassen sind Pattern und Matcher.
Damit könntest du (ungetestet) zum Beispiel ein Tag von seinen Attributen trennen können:

Code:

Pattern p = Pattern.compile("(<.+?)\\s?.*?(>)");

group(1) würde zum Beispiel "<_TD" matchen, und group(2) "_>"
Die underscores musste ich wegen der Boardsoftware machen :wink:

agchaos · 7. Aug 2006

Danke für den Ansatz. Muss mich damit beschäftigen. Dein schneller Ansatz funktioniert so nicht ganz (schnell ausgeführt).

Wildcard · 7. Aug 2006

ok, dieser AUsdruck liefert zum Beispiel folgende Matches:

Code:

(<[\\w/]+)\\s?.*?.?(>)

Code:

Eingabe: <html blupp><TD this is a test>sada</TD></html>
Ausgabe:
Found 4 match(es):

start=0, end=12
Group(0) = <html blupp>
Group(1) = <html
Group(2) = >

start=12, end=31
Group(0) = <TD this is a test>
Group(1) = <TD
Group(2) = >

start=35, end=40
Group(0) = </TD>
Group(1) = </TD
Group(2) = >

start=40, end=47
Group(0) = </html>
Group(1) = </html
Group(2) = >

agchaos · 7. Aug 2006

Mit der Methode verschwindet ja leider auch mein gesamter text, den ich eigentlich dazwischen stehen haben möchte. Trotzdem danke für die Idee.

Wildcard · 7. Aug 2006

Das sollte dir eigentlich nur als Beispiel dienen

Das alleine reicht natürlich noch nicht.
Eine andere Möglichkeit währe natürlich alles mit einem XML Parser einzulesen und die Attribute im XML-Model rauszuwerfen.
Das dürfte zuverlässiger sein als Pattern-Matching.

agchaos · 9. Aug 2006

Ich hab es erstens übers Indexing geschafft und übers Pattern/Matching funktioniert es auch

Danke für die Hilfe

agchaos · 9. Aug 2006

Jetzt ist doch noch ein Problem aufgetaucht, bei dem Ihr mir vielleicht weiter helfen könnt.

Soweit funktioniert jetzt alles mit Pattern und Matchen, doch folgendes

Code:

<html xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:w="urn:schemas-microsoft-com:office:word"
xmlns="http://www.w3.org/TR/REC-html40">

habe ich z.b. in einem StringBuffer stehen.

Code:

 String txt = sb.toString();
txt = txt.replaceAll("<html.*?>,"");

ist mein Java-Code für das Ersetzen des gesamten Strings oben, doch leider funktioniert das nicht, da der Schluss des Tags nicht gefunden wird, da er nicht in der selben Zeile steht wie in der öffnende.

Ich weiss es soll Multiline als flag geben, doch weiss ich nicht wie ich das anwenden soll. Alle Versuche sind leider gescheitert.

Habt ihr eine Idee?

Anne

agchaos · 10. Aug 2006

Hi ich nochmal.

Ich habe das Problem jetzt genauer ermittelt.

Beim Lesen des Files habe ich folgendes implementiert

Code:

       Sting text="";
                try {
     		String line;
      		BufferedReader br = new BufferedReader(new FileReader(file));
     		while ((line=br.readLine())!= null){
     			text = sb.append(line+"\n").toString();     			
     		}
     		br.close();
     	} catch (IOException e){
     		System.out.print("No file! \n");
     	}

Das Problem bingt der "\n" mit sich, wenn ich den rauslösche, dann funktioniert alles so wie ich es mir gedacht habe, aber ist dann nicht mehr lesbar.

Kann man der Replace-Methode nicht irgendwie mitteilen, dass diese die Umbrüche überlesen soll und in der nächsten Zeile weitersuchen soll?
Bisher habe ich

Code:

 text = text.replaceAll("<html.*?>","<html>");

Habt ihr einen Vorschlag?
Da mein HTML-Quelltext ohne diese Umbrüche absolut nicht bearbeitbar ist.

Danke

Anne

	Titel	Forum	Antworten	Datum
J	Problem mit einer Methode die gewissen Inhalt einer Array löschen soll	Java Basics - Anfänger-Themen	9	27. Jan 2021
M	Java Datei soll sich selbst löschen	Java Basics - Anfänger-Themen	8	28. Jan 2014
D	Bei Event soll Instanz sich selbst löschen	Java Basics - Anfänger-Themen	4	17. Aug 2008
B	Objekt soll sich selbst löschen	Java Basics - Anfänger-Themen	25	3. Jul 2006
G	JTable bei aktivieren einer Zelle soll Text selektiert werden.	Java Basics - Anfänger-Themen	24	2. Jun 2024
Ü	Methode soll Quadrat aus der Summer zurückgeben	Java Basics - Anfänger-Themen	10	26. Nov 2023
	Schleife soll wieder da anfangen wo ich es möchte !	Java Basics - Anfänger-Themen	17	23. Sep 2023
T	Methode soll etwas ausrechnen und zurückgeben (klappt nd) hat wer eine Idee?	Java Basics - Anfänger-Themen	11	22. Mai 2023
	Wie soll ich lernen?	Java Basics - Anfänger-Themen	17	10. Mai 2023
T	code so schreiben das er von sich selber anpasst (code soll die anzahl aller bustaben bestimmen)	Java Basics - Anfänger-Themen	16	16. Apr 2023
T	float soll durch schleife die größte mögliche Zahl herausfinden, Ausgabe ist aber "Infinity"	Java Basics - Anfänger-Themen	1	2. Mrz 2023
I	aus 2 random zahlen soll nur die ungerade summe der beiden genommen werden.	Java Basics - Anfänger-Themen	13	19. Okt 2022
H	Erste Schritte Nach einer Zahl n soll n Mal der String untereinander ausgegeben werden	Java Basics - Anfänger-Themen	3	7. Apr 2022
	Warum soll ich shuffle nutzen, um bei Rückgabewert Collection eine Liste zurückzugeben?	Java Basics - Anfänger-Themen	3	9. Mrz 2022
	Wann soll ich den Stream schließen, wenn ich das in einer Methode habe?	Java Basics - Anfänger-Themen	8	9. Mrz 2022
A	String split funktioniert nicht, wenn mehr als 1 Ziffer vor dem Zeichen steht nach dem er trennen soll?	Java Basics - Anfänger-Themen	4	19. Feb 2022
M	Bei nach oben scrollen soll Seite aktualisiert werden (Userscript mit Javascript)	Java Basics - Anfänger-Themen	10	16. Jan 2022
R	App soll selbstständig reagieren, anstatt via Models	Java Basics - Anfänger-Themen	0	7. Jan 2022
A	Wenn eine Zahl durch 7 teilbar ist, soll statt der Zahl ein ‘*‘ angezeigt werden. java?	Java Basics - Anfänger-Themen	47	7. Jan 2022
C	Ein Algorithmus soll schneller werden	Java Basics - Anfänger-Themen	24	29. Dez 2021
K	Ein Objekt Auto kennt den Inhalt seines links und rechtsstehenden Autos, wie soll man das ermöglichen	Java Basics - Anfänger-Themen	2	17. Nov 2021
	Brauche Hilfe soll ein nummeriertes Feld ausgeben lassen	Java Basics - Anfänger-Themen	17	7. Nov 2021
O	Ich habe einen String und soll mit matches schauen, ob ein Buchstabe zu einer geraden ANzahl im String vorkommt, wie soll das gehen?	Java Basics - Anfänger-Themen	7	6. Nov 2021
O	Ich ahbe einen char und diesen soll ich bei .matches prüfen, also ob der char in meiner Zeichenkette vorhanden ist, wie mache ich das?	Java Basics - Anfänger-Themen	9	6. Nov 2021
B	Java Programm soll mit Python kommunizeren	Java Basics - Anfänger-Themen	1	10. Aug 2021
J	Kreis soll die gleiche Fläche wie das Rechteck haben wie mache ich das?	Java Basics - Anfänger-Themen	3	19. Mai 2021
	Brauche zu diesem Labyrinth ein Skript? Der Hamster soll im Urzeigersinn das ganze Labyrinth abgehen und wieder an seinem Ursprungsplatz sein.	Java Basics - Anfänger-Themen	40	30. Mrz 2021
J	Problem mit einer Methode, die beliebig viele Objekte in Array speichern soll	Java Basics - Anfänger-Themen	6	26. Jan 2021
F	Java Programm, das kleine Buchstaben in einem String zählen soll und bei großen Buchstaben oder Sonderzeichen abbrechen soll.	Java Basics - Anfänger-Themen	5	24. Dez 2020
	Methode soll Array von Boolean zurückgeben	Java Basics - Anfänger-Themen	5	8. Dez 2020
S	Scanner soll Groß-/ Kleinschreibung ignorieren	Java Basics - Anfänger-Themen	2	25. Nov 2020
E	Division von BigInteger soll Gelitkommazahl liefern	Java Basics - Anfänger-Themen	46	23. Mai 2020
M	Unterklasse soll nicht alle Methoden erben	Java Basics - Anfänger-Themen	3	1. Dez 2019
E	Methode soll andere Methode der selben Klasse aufrufen	Java Basics - Anfänger-Themen	28	1. Dez 2019
S	Vergleichen ob der Integer der benutzt eingeben werden soll überhaupt ein int ist	Java Basics - Anfänger-Themen	1	24. Nov 2019
C	Ganzzahlige Werte in Boolean ausgeben und überprüfen ob Primzahl oder nicht, wenn es keine Primzahl ist soll es die Primfaktorzerlegung ausgeben	Java Basics - Anfänger-Themen	4	21. Nov 2019
E	Kreis soll eine Raupe darstellen	Java Basics - Anfänger-Themen	37	17. Nov 2019
V	Erste Schritte for-Schleife; Ausgabe soll alle 5 Sekunden erfolgen.	Java Basics - Anfänger-Themen	4	8. Nov 2019
H	Koordinateneingabe im 2D Array soll true/false zurückgeben	Java Basics - Anfänger-Themen	5	17. Jun 2019
D	Etwas unsicher wie es weitergehen soll	Java Basics - Anfänger-Themen	2	12. Jun 2019
N	Bewegtes Objekt soll sich um eine Parallele bewegen	Java Basics - Anfänger-Themen	0	5. Jun 2019
B	Button soll sowohl auf Klicken als auch auf die Enter-Taste reagieren	Java Basics - Anfänger-Themen	9	31. Mai 2019
B	Derzeit JSF - Projekt, später soll MobileApp folgen	Java Basics - Anfänger-Themen	5	15. Mai 2019
	Wie deklariert man eine Methode, die ein Objekt zurückgeben soll?	Java Basics - Anfänger-Themen	22	27. Feb 2019
V	Vererbung Subklasse soll Superklasse verändern	Java Basics - Anfänger-Themen	2	12. Dez 2018
T	Random soll Zufallszahl beibehalten.	Java Basics - Anfänger-Themen	11	29. Nov 2018
C	Objekt soll ein Array sein.	Java Basics - Anfänger-Themen	15	24. Nov 2018
N	Ich weiß nicht, wie ich meinen Code richtig designen soll und komme nicht weiter	Java Basics - Anfänger-Themen	4	28. Sep 2018
K	Zufalsszahl soll sich nicht wiederholen	Java Basics - Anfänger-Themen	9	23. Sep 2018
W	Eigener Iterator soll mehrdimensionales Array durchlaufen	Java Basics - Anfänger-Themen	4	13. Jul 2018
P	Methode soll Variable einer anderen Klasse ändern. Wie?	Java Basics - Anfänger-Themen	1	22. Apr 2018
J	Kopierte Datei soll alte ersetzen.	Java Basics - Anfänger-Themen	6	10. Apr 2018
A	Variablen Main Klasse soll auf eine andere Klasse zugreifen	Java Basics - Anfänger-Themen	3	28. Jan 2018
I	Programm tut nicht was es soll :)	Java Basics - Anfänger-Themen	5	6. Jan 2018
	Klassen jComboBox macht nicht was sie soll	Java Basics - Anfänger-Themen	4	24. Okt 2017
D	JButton soll Farbe von JTextfield ändern	Java Basics - Anfänger-Themen	5	28. Jun 2017
R	While-Schleife macht nicht was sie soll	Java Basics - Anfänger-Themen	24	19. Mrz 2017
	Methode soll int-Array zurückgeben	Java Basics - Anfänger-Themen	2	4. Feb 2017
S	Variable in JTextField soll immer um 5 zunehmen	Java Basics - Anfänger-Themen	8	16. Jan 2017
S	JButton soll für bestimmte Zeit verschwinden	Java Basics - Anfänger-Themen	5	12. Jan 2017
	Ein Getter bekommt eine anderen Type als er Return soll	Java Basics - Anfänger-Themen	9	2. Jan 2017
L	Bei falscher Eingabe soll NaN zurückgegeben werden, Rückgabetyp jedoch double	Java Basics - Anfänger-Themen	3	3. Dez 2016
W	drawLine(...) - Linie soll nur begrenzt lang sein	Java Basics - Anfänger-Themen	9	22. Aug 2016
I	Fenster A soll Fenster B schliessen	Java Basics - Anfänger-Themen	5	20. Feb 2016
A	Variablen Variable soll ihren Wert nach Initialisierung nicht mehr ändern	Java Basics - Anfänger-Themen	2	3. Feb 2016
	Methoden Bestimmung an welche Methode eine andere Methode ihren Wert weitergeben soll	Java Basics - Anfänger-Themen	35	30. Dez 2015
M	Exception soll Werte mitgeliefert bekommen	Java Basics - Anfänger-Themen	12	27. Nov 2015
K	Objekt soll Anwendung über Änderungen informieren	Java Basics - Anfänger-Themen	8	15. Sep 2015
X	Einfache Frage; wie soll ich die spezielle float var speichern?	Java Basics - Anfänger-Themen	2	1. Sep 2015
C	Ein Button soll Focus rausfinden und Methode starten	Java Basics - Anfänger-Themen	9	16. Jun 2015
M	Panel erstellen, welches ein Control erhält. Ausgabe soll über einen Stream erfolgen.	Java Basics - Anfänger-Themen	0	21. Mai 2015
K	Variablenname soll der Inhalt vom String sein	Java Basics - Anfänger-Themen	2	17. Mai 2015
K	Wie lange kann / soll das dauern?	Java Basics - Anfänger-Themen	6	29. Mrz 2015
R	Button soll Wert 1 in Variable schreiben	Java Basics - Anfänger-Themen	4	24. Mrz 2015
J	Interface Bubblesort soll Arrays beliebiger Referenztypen sortieren können.	Java Basics - Anfänger-Themen	5	18. Feb 2015
T	Array soll Werte aufnehmen	Java Basics - Anfänger-Themen	2	12. Jan 2015
B	Anwender soll mathematische Funktion eingeben können, Einfachster Fnktionsplotter	Java Basics - Anfänger-Themen	4	29. Dez 2014
E	Erste Schritte [Noob-Frage] Meine If-Abfrage macht nicht, was sie soll...	Java Basics - Anfänger-Themen	2	19. Dez 2014
S	Generische Methode soll Objekte als Parameter erlauben die bestimmtes Interface implementieren^	Java Basics - Anfänger-Themen	9	15. Dez 2014
M	Weiß nicht, wie ich es nennen soll.	Java Basics - Anfänger-Themen	1	11. Sep 2014
T	Wenn Schaltjahr ist, soll Februar, einen Tag mehr haben, GUI mit combobox	Java Basics - Anfänger-Themen	4	8. Sep 2014
H	Erste Schritte Ergebniss soll kleiner als 1000 sein	Java Basics - Anfänger-Themen	4	30. Jul 2014
M	Warum soll man die Finanlize Methode nicht überschreiben und aufrufen?	Java Basics - Anfänger-Themen	2	9. Jul 2014
W	Erste Schritte Timer soll jede Sekunde Label aktualisieren	Java Basics - Anfänger-Themen	5	5. Jun 2014
T	BufferReader soll datei mehrmals lesen	Java Basics - Anfänger-Themen	13	2. Jun 2014
M	CompareTo soll Datum sortieren	Java Basics - Anfänger-Themen	2	16. Apr 2014
S	Maus soll Programm nicht verlassen	Java Basics - Anfänger-Themen	1	13. Apr 2014
V	Was soll alles in den Konstruktor?	Java Basics - Anfänger-Themen	3	18. Jan 2014
E	Einfache For-Schleife macht nicht was sie soll	Java Basics - Anfänger-Themen	2	15. Jan 2014
	Wie soll ich weiermachen?	Java Basics - Anfänger-Themen	4	30. Dez 2013
E	Erste Schritte Array soll kleiner werdenden String erstellen	Java Basics - Anfänger-Themen	5	18. Dez 2013
S	Methoden Methode soll String zurückgeben	Java Basics - Anfänger-Themen	11	4. Dez 2013
C	Wo soll die Methode hin?	Java Basics - Anfänger-Themen	2	25. Nov 2013
A	scan.nextLine() - Wenn man zu lange nichts macht, soll etwas passieren	Java Basics - Anfänger-Themen	3	27. Okt 2013
C	Erste Schritte Boolsche For-Schleife soll Ausgaben mitzählen	Java Basics - Anfänger-Themen	8	13. Sep 2013
S	Ein Rechteck soll an einer Seite gespiegelt werden.	Java Basics - Anfänger-Themen	5	16. Jan 2013
B	Collections Collection soll nur einen bestimmten Datentyp aufnehmen	Java Basics - Anfänger-Themen	12	13. Jan 2013
G	Erste Schritte Action soll zwei sachen ausführen	Java Basics - Anfänger-Themen	7	9. Jan 2013
B	Array soll an Konstruktor übergeben werden..Hilfe!	Java Basics - Anfänger-Themen	16	5. Jan 2013
D	Break funktioniert nicht so wie es soll	Java Basics - Anfänger-Themen	8	2. Jan 2013

wie soll Löschen von Code in Dokumenten gehen?

agchaos

Mitglied

Wildcard

Top Contributor

agchaos

Mitglied

Wildcard

Top Contributor

agchaos

Mitglied

Wildcard

Top Contributor

agchaos

Mitglied

Wildcard

Top Contributor

agchaos

Mitglied

Wildcard

Top Contributor

agchaos

Mitglied

agchaos

Mitglied

agchaos

Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen