我想知道解析和将普通网页转换为易读格式的独立选项,由Pocket,Readability和Instapaper等服务提供。
我主要是在寻找一个包含在我的应用程序中的Java解析器库,但总的来说,各种独立工具都很受欢迎。
感谢。
答案 0 :(得分:4)
我认为你是在Snacktory之后,这些日子似乎是java的最先进技术,取代了jreadability。
答案 1 :(得分:2)
Snackatory现在表示它已经过时并建议使用Crux。
但也有Readability4J。它是Mozilla的Readability.js的Kotlin端口,用于Firefox的Reader View。所以Readability4J的输出完全匹配Firefox的Reader View。
免责声明:我是Readability4J的作者。但是我只是移植了它,对于伟大的工作的赞誉归于Mozilla:https://github.com/mozilla/readability。
答案 2 :(得分:0)
JSoup是我想到的第一个图书馆。它是抓取HTML的理想选择。您可以轻松地从网页中删除所有标记,只留下文本。 (如果你知道目标页面的结构,你可以使用一个特定的选择器来获得你想要的作品,或者排除你想要的作品。)
然后,您可能只想要Flying Saucer这样的东西,它会尽力将网页渲染为PDF。