获取RSS数据时如何确保RSS数据不重复

时间:2018-01-15 07:19:02

标签: web rss rss-reader

众所周知,如果网站管理员更新RSS数据,RSS数据将更新,或者更新RSS源数据的第三部分lib。

现在,如果我正在编写RSS阅读器,那么每次我从网站的RSS源获取数据。

如何确保数据是否被提取?

来自wikipedia RSS

只需要titlelinkdescription字段。 pubDate不是必需的。因此,我无法确保数据是由我们通过pubDate还是其他字段(如lastBuildDate字段)提取的。

那么,哪位朋友可以告诉我如何验证饲料数据是否由我们提取?

2 个答案:

答案 0 :(得分:0)

阅读RSS源时,每个项目的guid元素用于检查该项目之前是否已被阅读。

guid可以是项目HTML版本的永久链接,如下所示:

<guid>http://dallas.example.com/1983/05/06/joebob.htm</guid>

guid也可以是为项目提供唯一值的任何其他文本,例如使用sending a response规范的文本,如下例所示:

<guid isPermaLink="false">tag:dallas.example.com,4131:news</guid>

虽然名称guid代表全球唯一ID,但RSS中并不要求guid值具有全局唯一性。最多,您可以希望它对该Feed发布商而言是独一无二的。

guid元素是可选的。

答案 1 :(得分:0)

最后我发现链接可以确保项目是否被提取。

我可以将获取的数据保存在我的数据库中,每次用户获取数据时,都可以通过{{1}}属性检查数据是否存在于数据库中。