我的应用程序需要跟踪RSS / Atom提要并将新条目保存在数据库中。我的问题是,确定Feed中的条目是否已被抓取的最可靠方法是什么?
我使用Universal Feed Parser模块来解析Feed。我当前的实现记录了feed.entry[i].updated_parsed
的最新值,当条目的updated_parsed
值大于记录值时进行爬网,然后该条目保存在数据库中。这里的问题是许多订阅源没有发布日期或更新日期。
答案 0 :(得分:3)
您应该主要通过引用其<guid>
来确定您是否已经抓取了一个条目(在没有<link>
的情况下回退到<guid>
)以及任何可做的事情仅将日期作为次要分析。