基于Java的可读性解析器

时间:2013-02-25 08:32:58

标签: java html-parsing readability

我想知道解析和将普通网页转换为易读格式的独立选项,由Pocket,Readability和Instapaper等服务提供。

我主要是在寻找一个包含在我的应用程序中的Java解析器库,但总的来说,各种独立工具都很受欢迎。

感谢。

3 个答案:

答案 0 :(得分:4)

我认为你是在Snacktory之后,这些日子似乎是java的最先进技术,取代了jreadability。

答案 1 :(得分:2)

Snackatory现在表示它已经过时并建议使用Crux

但也有Readability4J。它是Mozilla的Readability.js的Kotlin端口,用于Firefox的Reader View。所以Readability4J的输出完全匹配Firefox的Reader View。

免责声明:我是Readability4J的作者。但是我只是移植了它,对于伟大的工作的赞誉归于Mozilla:https://github.com/mozilla/readability

答案 2 :(得分:0)

JSoup是我想到的第一个图书馆。它是抓取HTML的理想选择。您可以轻松地从网页中删除所有标记,只留下文本。 (如果你知道目标页面的结构,你可以使用一个特定的选择器来获得你想要的作品,或者排除你想要的作品。)

然后,您可能只想要Flying Saucer这样的东西,它会尽力将网页渲染为PDF。