Google Reader如何从网页中提取新闻?

时间:2011-12-20 23:09:08

标签: algorithm search rss google-reader

我想知道Google阅读器如何从网页中提取新闻。

你们有谁知道它是如何运作的吗?或者某人如何构建类似的系统以从网页的HTML中提取相同的信息。

显然它没有使用标准(也不仅仅是阅读RSS / ATOM),因为谷歌阅读器证明它可以读取页面的内容,无论标记如何。

2 个答案:

答案 0 :(得分:1)

Google阅读器目前不会从原始网页中提取任何内容。它曾经有一个"track changes to arbitrary pages" feature,但一年多前就是removed

如果提供的网址不是Feed的网址,则Google阅读器会抓取其内容。如果内容为HTML,则会查找<link rel="alternate" type="application/atom+xml" href="feed.xml">形式的autodiscovery元素。如果找到,则订阅Feed。

答案 1 :(得分:-2)

您已通过使用“RSS”标记问题来回答您的问题。

无论如何,谷歌阅读器像所有其他RSS /原子阅读器一样读取RSS或Atom提要。您可能需要查看相应的维基百科文章:http://en.wikipedia.org/wiki/RSS