algorithm - Google Reader如何从网页中提取新闻？

时间：2011-12-20 23:09:08

标签： algorithm search rss google-reader

我想知道Google阅读器如何从网页中提取新闻。

你们有谁知道它是如何运作的吗？或者某人如何构建类似的系统以从网页的HTML中提取相同的信息。

显然它没有使用标准（也不仅仅是阅读RSS / ATOM），因为谷歌阅读器证明它可以读取页面的内容，无论标记如何。

答案 0 :(得分：1)

Google阅读器目前不会从原始网页中提取任何内容。它曾经有一个"track changes to arbitrary pages" feature，但一年多前就是removed。

如果提供的网址不是Feed的网址，则Google阅读器会抓取其内容。如果内容为HTML，则会查找<link rel="alternate" type="application/atom+xml" href="feed.xml">形式的autodiscovery元素。如果找到，则订阅Feed。

答案 1 :(得分：-2)

您已通过使用“RSS”标记问题来回答您的问题。

无论如何，谷歌阅读器像所有其他RSS /原子阅读器一样读取RSS或Atom提要。您可能需要查看相应的维基百科文章：http://en.wikipedia.org/wiki/RSS