HTML2TXT ganz einfach

Status
Nicht offen für weitere Antworten.

noisebreath

Bekanntes Mitglied
Hi hat mir jemand n jar oder nen sourcecode welches ein html document nimmt und zu einem txt file oder text String umwandelt. Formatierung wie Absätze oder sowas sind völlig egal nur der plain text sollte vorhanden sein.

achja nochwas: ich hab schon erfolglos gegooglet.
der YOSHIKODER CONVERTER könnte wohl zb sowas machen aber ich krieg keine jar davon her.

am htmlparser HTML Parser - HTML Parser probier ich grad rum.

lg
noise
 
Zuletzt bearbeitet:

noisebreath

Bekanntes Mitglied
ich will den text einfach einlesen aber ohne die tags halt.

mit dem html parser von oben komm ich nicht ganz klar. finde irgendwie die class nicht, die string extraction machen soll.
HTML Parser - HTML Parser Sample Programs

Auf der Seite heisst es es gäbe einen StringExtractor, den mein ich bräuchte ich wohl aber ich find ihn nicht im srcCode ^^

in den JavaDocs ist davon auch nichts zu sehen *g

HTML Parser 2.0
 
Zuletzt bearbeitet:

musiKk

Top Contributor
Der stringextractor ist auch nur ein Wrapper um die etwas unglücklich benannte Klasse StringBean, damit daraus ein Kommandozeilentool wird. Schau Dir das mal an.
 

DocRandom

Top Contributor
Hi!

Ich verwende für dieses Problem schon seit geraumer Zeit HttpUnit.
Hier die Klasse:
Java:
import java.io.IOException;
import java.io.StringReader;

import javax.swing.text.BadLocationException;
import javax.swing.text.html.HTMLDocument;
import javax.swing.text.html.HTMLEditorKit;

import com.meterware.httpunit.WebResponse;

public class Html2Text {

	private HTMLEditorKit editor;
	private HTMLDocument document;
	
	public Html2Text() {
		editor = new HTMLEditorKit();
		document = (HTMLDocument)editor.createDefaultDocument();
		document.putProperty("IgnoreCharsetDirective", new Boolean(true)); 
	}
	
	public String getPlainText(WebResponse response) {
		String plaintext = "";
		
		try {
			editor.read(new StringReader(response.getText()),document, 0);
			plaintext = document.getText(0, document.getLength());
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (BadLocationException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		return plaintext;
	}
}

lg
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
W While Schleife funktioniert nicht ganz Allgemeine Java-Themen 4
GreenTeaYT Verstehe nicht ganz das Observer Pattern in einer Arrayliste? Allgemeine Java-Themen 3
K Java installiert sich nicht ganz Allgemeine Java-Themen 15
O BufferedReader von ganz unten anfangen zu lesen Allgemeine Java-Themen 7
N Vererbung Static & private fields - Nicht ganz einfach? Allgemeine Java-Themen 4
M Exception ganz sehen Allgemeine Java-Themen 2
C Hilfe! Mein Java mag nich mehr ganz... Allgemeine Java-Themen 11
F Wie zur Laufzeit ganz neue Objekte erzeugen? Allgemeine Java-Themen 5
V Ganz einfaches MVC-Beispiel?! Allgemeine Java-Themen 107
Horst79 Ein ganz simpler filebrowser als applet Allgemeine Java-Themen 2
C Listen in Java. Anehängter Code nicht ganz klar Allgemeine Java-Themen 19
H ganz simpler chat Allgemeine Java-Themen 8
S Ganz übler Anfänger - Webseiten mit Java Allgemeine Java-Themen 3
G Java-Exceptions werden nicht ganz angezeigt. Wo ändern? Allgemeine Java-Themen 3
C Java Native binding Code will nicht so ganz Allgemeine Java-Themen 2
L Mal ne ganz doove Frage. Allgemeine Java-Themen 2
J Ganz allgemeine Frage Allgemeine Java-Themen 3
berserkerdq2 Wenn ich einfach eine GIF in den Scenebuilder als Bild reinpacke, wird das dann asl Gif angezeigt Allgemeine Java-Themen 1
M einfach verkettete Liste verstehen Allgemeine Java-Themen 23
B Einfach Elemente zweier Arraylisten kreuz und quer vergleichen, min und max Problem? Allgemeine Java-Themen 16
OSchriever Einfach verkettete Liste ändern Allgemeine Java-Themen 43
HarleyDavidson Eigener PropertyChangeListener funktioniert einfach nicht Allgemeine Java-Themen 3
F Login einfach "ausbauen" Allgemeine Java-Themen 10
F BlueJ Java/Bluej Bug oder einfach nur Dummheit?? Allgemeine Java-Themen 5
O Programm wird einfach "gekillt" Allgemeine Java-Themen 3
C Eclipse Startet einfach nicht Allgemeine Java-Themen 6
S Javadoc hört einfach auf Allgemeine Java-Themen 4
V anstatt thread.join() einfach while schleife? Allgemeine Java-Themen 8
L JAR verändern - JAVAC soll einfach nur kompilieren, ohne Prüfungen Allgemeine Java-Themen 16
L RMI Die richtigen Policy-Einstellungen oder einfach Signieren? Allgemeine Java-Themen 3
E Timer class macht einfach garnichts :/ Allgemeine Java-Themen 6
T Thread beendet sich "einfach so"? Allgemeine Java-Themen 13
D Einfach verkettete Liste Allgemeine Java-Themen 3
X einfach verkettete Liste und Insertion Sort Allgemeine Java-Themen 3
G Runtime.exec - Prozess "mittendrin" "einfach Allgemeine Java-Themen 4
4 ich steige einfach nicht durch Allgemeine Java-Themen 5
J XML: JDOM + builder.build() hängt einfach Allgemeine Java-Themen 3
J Merkwürdiger Fehler: Applikation hängt einfach, Quartz-bug? Allgemeine Java-Themen 6
E Wie: Eigener Listener, eigenes Event (möglichst einfach) Allgemeine Java-Themen 29
H will einfach nicht sortieren! Allgemeine Java-Themen 23
G Einfach Mathe – Problem. Allgemeine Java-Themen 7
R Bild wird trotz allem einfach nicht angezeigt. - AHHHHH!!!!! Allgemeine Java-Themen 30
G Warum einfach wenns kompliziert auch geht? Allgemeine Java-Themen 12
E Schaffe es einfach nicht daten innerhalb von 2 klassen zu üb Allgemeine Java-Themen 4

Ähnliche Java Themen

Neue Themen


Oben