HtmlToPlainText不再包含在jsoup中

时间:2018-12-05 20:39:47

标签: java html jsoup

我正在将一些html转换为纯文本,并且我正在使用jsoup的HtmlToPlainText。但是,在最近的jsoup版本中,不再包含该代码,因为据说它只是作为示例提供(尽管HtmlToPlainText javadoc仍说它是jsoup.jar的一部分)。

除了手动复制或打包该代码作为附加库以外,我还能使用什么呢? jsoup中是否包含替代品,或者至少基于jsoup?

2 个答案:

答案 0 :(得分:1)

我们最近从JSoup切换到Jericho

return new Source(html).getRenderer().setMaxLineLength(Integer.MAX_VALUE).setNewLine(null).toString();

具有这种maven依赖性

<dependency>
    <groupId>net.htmlparser.jericho</groupId>
    <artifactId>jericho-html</artifactId>
    <version>3.4</version>
</dependency>

答案 1 :(得分:1)

HtmlToPlainText是如何使用Jsoup库的示例。如果要使用它,则必须将其source code复制到您自己的项目中。所有引用的类都包含在Jsoup库中,您只需要这一类。

之后,您可以通过以下方式使用它:

Document doc = Jsoup.parse(html);
String text = new HtmlToPlaintext().getPlainText(doc.body());

将代码复制到项目中的优势在于,您可以修改HtmlToPlainText类并使其适应您的需求,例如,是否在链接中显示其网址。