访问旧的,不再可用的订阅源条目

时间:2008-10-03 16:00:43

标签: rss feeds atom-feed

我正在开发一个项目,该项目要求可靠地访问历史供稿条目,这些条目不一定在网站的当前供稿中可用。我找到了几种访问这些数据的方法,但它们都没有给我所有我需要的特性。

将此视为头脑风暴。我会告诉你我找到了多少,如果你有任何其他想法,你可以做出贡献。

  1. Google AJAX Feed API - 将限制为250项

  2. Unofficial Google Reader API - 完美但非正式,因此不可靠(也许是准非法的?)。此外,身份验证似乎很棘手。

  3. Spinn3r - 花费很多钱

  4. 在饲料网站上饲养internet archive - 很多复杂,覆盖面不大,只作为最后的手段有用

  5. Yahoo! Feed APIYahoo! Search BOSS - 第一个看起来更像聚合器,这意味着我需要为每个Feed添加不同的注册,第二个应该提供更多访问Yahoo的数据,但我可以找不到饲料。

  6. (感谢Lou Franco)Bloglines Sync API - 除了需要帐户和更多设计为聚合器的问题之外,它还没有办法向帐户添加订阅源。所以没有任意反馈的检索。您需要先通过阅读器手动添加它们。

  7. 其他搜索引擎/博客搜索/其他什么?

  8. 这是一个非常恼人的问题,因为我们正在谈论曾经存在的语义信息,仍然(通常)有效,但难以可靠,自由且无限制地访问。有人知道饲料进入优势的任何替代来源吗?

2 个答案:

答案 0 :(得分:1)

Bloglines有一个用于同步帐户的API

http://www.bloglines.com/services/api/sync

您必须创建一个帐户,订阅您要下载的Feed,然后您可以根据日期下载,这可能是过去的方式。不确定条款。

答案 1 :(得分:1)

到目前为止,我发现的最佳答案是:Google阅读器的非官方API最终为其Feed提供了一个公共访问点,这意味着无需进行身份验证。使用方法如下:

http://www.google.com/reader/public/atom/feed/ {你的饲料uri在这里}?n = 1000

用您感兴趣的Feed URI替换波形(包括波浪形本身)中的文本。有关精确参数的更多信息,请访问:

http://blog.martindoms.com/2009/10/16/using-the-google-reader-api-part-2/

但是如果你不想弄乱身份验证,请记得使用/ public / url