我正在尝试找到一个工具来解析包含html的TXT文件到纯文本,同时保持格式化,列表等等
我能找到这个http://jsoup.org/apidocs/org/jsoup/examples/HtmlToPlainText.html 这是完美的。唯一的问题是它读取的是URL,而不是文件。我尝试对代码进行一些更改但没有成功
有人能指出我如何将其读取我的txt文件作为输入的正确方向吗?
答案 0 :(得分:1)
您可以开始调查示例程序的源代码:https://github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/examples/HtmlToPlainText.java
从文件而不是URL加载html非常容易。 JSoup可以轻松解析字符串。
示例强>
String fileName = "YOURFILE.htm";
Scanner scanner = new Scanner( new File(fileName) );
String content = scanner.useDelimiter("\\A").next();
scanner.close() // Put this call in a finally block
Document doc = Jsoup.parse(content);
//do whatever with the JSoup document