我正在将一些html转换为纯文本,并且我正在使用jsoup的HtmlToPlainText
。但是,在最近的jsoup版本中,不再包含该代码,因为据说它只是作为示例提供(尽管HtmlToPlainText javadoc仍说它是jsoup.jar的一部分)。
除了手动复制或打包该代码作为附加库以外,我还能使用什么呢? jsoup中是否包含替代品,或者至少基于jsoup?
答案 0 :(得分:1)
我们最近从JSoup切换到Jericho
return new Source(html).getRenderer().setMaxLineLength(Integer.MAX_VALUE).setNewLine(null).toString();
具有这种maven依赖性
<dependency>
<groupId>net.htmlparser.jericho</groupId>
<artifactId>jericho-html</artifactId>
<version>3.4</version>
</dependency>
答案 1 :(得分:1)
类HtmlToPlainText
是如何使用Jsoup库的示例。如果要使用它,则必须将其source code复制到您自己的项目中。所有引用的类都包含在Jsoup库中,您只需要这一类。
之后,您可以通过以下方式使用它:
Document doc = Jsoup.parse(html);
String text = new HtmlToPlaintext().getPlainText(doc.body());
将代码复制到项目中的优势在于,您可以修改HtmlToPlainText
类并使其适应您的需求,例如,是否在链接中显示其网址。