我正在实现类似系统的rss提要阅读器,我遇到了一些问题,这些提要会在一段时间后更改项目的网址。 当我构建系统时,我使用url的md5作为ID来轻松快速地检测重复项,人们不会更改文章的URL,因为它对SEO有害,但如果他们使用feedproxy或其他动态Feed生成器文章的URL使用重定向,并且URL也会更改,例如我将这3个条目放入我的数据库中以获得相同的文章
我的问题是这样做的正确方法是什么,如果你知道一些可以在服务器端使用的开源代码是稳定的,维护我可以替换我现在使用的PHP代码(它可以是在任何语言)(我使用picofeed)
答案 0 :(得分:2)
您是否使用item的ID作为唯一标识符?
// Item object
$feed->items[0]->getId(); // Item unique id (hash)
Picofeed可能会创建来自RSS item's guid的唯一ID的哈希值,或者如果缺少guid,他们会像您一样使用链接URL。通常饲料创建者添加guid,即使链接发生变化,它们也应保持不变。 Here is some more info about how rss readers detect duplicates.