标签: java html plaintext
问题很简单,我想将HTML文本转换为纯文本,想要将换行符放在<br>或标题标签,列表上的数字或标记等位置。
<br>
我目前正在使用 BoilerPipe 来执行此操作,但这不是此库的主要目标。还有一个可以做到这一点吗?
答案 0 :(得分:1)
我非常喜欢selenium的java库。使用getBodyText()来获取简单的正文文本,其中html标记被剥离并正确格式化。
...见
Selenium java API
答案 1 :(得分:0)
如何使用XML解析器?这样,您就可以控制间距和换行符。
我怀疑一个成熟的HTML解析器和格式化程序是否可用,因为这会遇到CSS解析等问题。