Java中的一个库,可以将HTML文本转换为纯文本?

时间:2011-09-05 03:48:30

标签: java html plaintext

问题很简单,我想将HTML文本转换为纯文本,想要将换行符放在<br>或标题标签,列表上的数字或标记等位置。

我目前正在使用 BoilerPipe 来执行此操作,但这不是此库的主要目标。还有一个可以做到这一点吗?

2 个答案:

答案 0 :(得分:1)

我非常喜欢selenium的java库。使用getBodyText()来获取简单的正文文本,其中html标记被剥离并正确格式化。

...见

Selenium java API

答案 1 :(得分:0)

如何使用XML解析器?这样,您就可以控制间距和换行符。

我怀疑一个成熟的HTML解析器和格式化程序是否可用,因为这会遇到CSS解析等问题。