使用magpie和cron作业rss到sql

时间:2010-08-15 00:59:56

标签: rss magpie

基本上,我希望我的网站聚合很多RSS源并在cron作业期间将它们存储在数据库中。我使用magpie将rss解析成数组......虽然我担心运行cron作业时出现重复问题,但一切都应该是直截了当的。

什么是避免重复输入的最佳解决方案....这是我的理论,虽然我认为它的效率。

cron job theory

1)用喜鹊解析rss feed 2)创建链接的md5哈希 3)测试数据库表中是否存在md5 ...如果不存在...插入..如果存在忽略或更新

了解是否有更有效的方式

2 个答案:

答案 0 :(得分:1)

既然你担心重复问题,它怎么会最终重复?如果它在几个不同的网站上找到,我想最好找到文章第一句话的MD5或其他东西。

答案 1 :(得分:1)

链接可能不够,因为文章在多个网站上都是重复的。我曾经制作了一个系统来收集很多报纸上的文章,其中同一篇文章可以出现在多个来源中。此外,网站可能会在多个网址上发布相同的文章,例如,当文章以多个类别展示时。

如果您确实希望确定某篇文章不重复,请根据该内容或散列代码进行比较。