获取网页内容,类似于作为服务的可读性

时间:2012-03-14 18:35:33

标签: html parsing readability

我正在寻找一些工具来获取不同页面(博客文章,杂志等)的干净HTML内容。基本思想是iOS Safary中的“读者”如何运作。

This回答我可以说iOS Safary使用Readability进行内容解析。不幸的是,API不包括任何解析方法,而是保存书签并获取内容,这对我来说并不合适。

另一个答案here建议使用https://www.readability.com/api/content/v1/parser,但这对我不起作用。

对类似服务的任何建议?

1 个答案:

答案 0 :(得分:0)

看看Tranquility。它是一个Firefox附加组件,因此您可以查看源代码。您可以下载XPI并解压缩。然后查看content / tranquility.js和内容中的相关文件/.