我正在开展一个项目,显示来自不同网站的RSS源。 我将它们保存在数据库中,每3个小时我的程序取出并将它们插入到sql数据库中。 我希望提供商的独特记录不显示重复内容。
但问题是某些提供商不提供GUID字段,而其他一些提供者提供GUID字段但不提供pubdate ..而其他一些提供者甚至不提供GUID或PubDate标题和链接。
那么在sql server中保持rss feed uniqe最好的方法是什么?
我应该检查第一个guid,然后检查pubbdate,然后链接,然后标题?比较SQL中的链接字段以检查唯一性是不是很好?
感谢。
答案 0 :(得分:1)
我会开发一个例程,它接受一些关键参数,如标题,源和正文,然后将它们组合起来创建一个CRC哈希。然后将散列作为属性存储在Feed中,并在添加新Feed之前检查匹配的散列。
我不确定你的环境是什么,但这是一个用C#计算CRC-32的例子:http://damieng.com/blog/2006/08/08/calculating_crc32_in_c_and_net