创建RSS阅读器时,您下载RSS提要链接指向的XML格式文档,您可以手动或使用SyndicationFeed命名空间中的功能对其进行解析。
因此,如果我们以Scott Guthrie的博客为例,您下载RSS提要文档here并解析它。我的问题是这份文件只包含15个项目,但他已经写了很多年的博客。
是否有标准或既定方法来获取未包含在RSS Feed文档中的旧帖子?或者你必须找到博客文章的基地址,然后从那里解析网站的页面来获取它们?你如何避免在高容量博客上遗漏帖子?
答案 0 :(得分:1)
使用RSS / Atom,您无法查询较旧的文章。
我建立了一个RSS档案服务(https://app.pub.center)。我们所有的数据都可以通过REST免费使用。我们收取推送通知的费用。
PubCenter每日调查它的RSS源目录,并缓存文章。然后,您可以按时间顺序返回这些文章。例如:
大西洋的第1页https://pub.center/feed/02702624d8a4c825dde21af94e9169773454e0c3/articles?limit=10&page=1
大西洋第2页https://pub.center/feed/02702624d8a4c825dde21af94e9169773454e0c3/articles?limit=10&page=2
答案 1 :(得分:0)
正如对How Do I Fetch All Old Items on an RSS Feed?已经提到的回复一样,Feed可能无法提供存档数据,但可能会从其他来源提供历史项目。
Archive.org的Wayback Machine有一个API来访问历史内容,包括RSS提要(如果他们的机器人已经下载了它)。我创建了使用此API重新生成包含连锁历史项的Feed的网络工具Backfeed。如果您想详细讨论实施,请与我们联系。