将包含HTML的txt格式转换为纯文本

时间:2016-01-26 11:49:10

标签: jsoup html-to-text

我正在尝试找到一个工具来解析包含html的TXT文件到纯文本,同时保持格式化,列表等等

我能找到这个http://jsoup.org/apidocs/org/jsoup/examples/HtmlToPlainText.html 这是完美的。唯一的问题是它读取的是URL,而不是文件。我尝试对代码进行一些更改但没有成功

有人能指出我如何将其读取我的txt文件作为输入的正确方向吗?

1 个答案:

答案 0 :(得分:1)

您可以开始调查示例程序的源代码:https://github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/examples/HtmlToPlainText.java

从文件而不是URL加载html非常容易。 JSoup可以轻松解析字符串。

示例

String fileName = "YOURFILE.htm";
Scanner scanner = new Scanner( new File(fileName) );
String content = scanner.useDelimiter("\\A").next();
scanner.close() // Put this call in a finally block

Document doc = Jsoup.parse(content);
//do whatever with the JSoup document