我需要为我的大学项目创建一个像Google Reader这样的网络工具。
我有2个问题:
1) Google阅读器如何跟踪已阅读和未阅读的帖子?
2) Google阅读器会保存数据库中的每个帖子或加载Feed吗?
答案 0 :(得分:3)
答案 1 :(得分:2)
#2:Google有一个名为FeedFetcher的特殊RSS抓取工具。当您请求RSS源时,会调度它以检索它,并将该源存储到由URL标识的全局(所有用户)缓存中。下次请求提要时(即使是不同的用户 - 只要URL匹配),它就会从缓存中加载。
我不确定缓存失效机制是什么,但是爬虫肯定不会像响应的Cache-Control
机制那样频繁地重新访问这些源(这可能是一件好事,因为很多生成RSS Feed发送no-cache
虽然它们不会经常更改)。但是,这个内部缓存似乎不会持续超过几个小时。
(这些是我之前从我的RSS提要访问日志中提出的假设;我仍然认为它们是有效的,因为我没有看到爬虫行为的任何重大变化)
答案 2 :(得分:2)
不确定它现在是否有所帮助,但是对于其他人来说,我用详细的设计记下了我的想法:
答案 3 :(得分:0)
您可以使用 Selfoos 新的多用途RSS阅读器,直播,mashup,聚合Web应用程序。
功能强>