如何抓取Feed

时间:2009-03-28 05:20:17

标签: rss web-crawler feeds atom-feed

我的应用程序需要跟踪RSS / Atom提要并将新条目保存在数据库中。我的问题是,确定Feed中的条目是否已被抓取的最可靠方法是什么?

我使用Universal Feed Parser模块来解析Feed。我当前的实现记录了feed.entry[i].updated_parsed的最新值,当条目的updated_parsed值大于记录值时进行爬网,然后该条目保存在数据库中。这里的问题是许多订阅源没有发布日期或更新日期。

1 个答案:

答案 0 :(得分:3)

您应该主要通过引用其<guid>来确定您是否已经抓取了一个条目(在没有<link>的情况下回退到<guid>)以及任何可做的事情仅将日期作为次要分析。