我目前正在寻找方法来阅读网站的可见文本并使用Java将其存储为纯文本字符串。
换句话说,我想转换这样的东西:
Hello <span style="display: none">stupid</span> World
进入“Hello World”
或类似
<span>Un</span>friendly
进入“不友好”(而不是“非友好”)
或
Hello
World
进入“Hello World”(因为HTML中忽略了新行)
你知道任何能够协助完成这项任务的lib吗?
干杯,
的Matthias
答案 0 :(得分:4)
Boilerpipe是一个用Java编写的HTML清理库。
答案 1 :(得分:0)
查看Cobra以查看API是否提供了呈现HTML并将其转换为纯文本的任何方法。