我有200个RSS源列表,我必须下载。这是一个持续的过程 - 我必须下载每个帖子,没有什么可以丢失,但也没有重复。那么最佳实践应该记住饲料的最后更新并控制它在x小时间隔内的变化?如果下载器将重新启动如何处理?所以下载者应该记住,下载了什么,不要再下载...
它已经实现了吗?或者文章的任何提示?感谢
答案 0 :(得分:4)
通常这是你想要做的事情:
答案 1 :(得分:2)
您可以使用feedparser来解析Feed并在数据库中存储每个Feed的最大发布时间。
对于简单数据库,您可以使用shelve。