我想知道Google阅读器如何从网页中提取新闻。
你们有谁知道它是如何运作的吗?或者某人如何构建类似的系统以从网页的HTML中提取相同的信息。
显然它没有使用标准(也不仅仅是阅读RSS / ATOM),因为谷歌阅读器证明它可以读取页面的内容,无论标记如何。
答案 0 :(得分:1)
Google阅读器目前不会从原始网页中提取任何内容。它曾经有一个"track changes to arbitrary pages" feature,但一年多前就是removed。
如果提供的网址不是Feed的网址,则Google阅读器会抓取其内容。如果内容为HTML,则会查找<link rel="alternate" type="application/atom+xml" href="feed.xml">
形式的autodiscovery元素。如果找到,则订阅Feed。
答案 1 :(得分:-2)
您已通过使用“RSS”标记问题来回答您的问题。
无论如何,谷歌阅读器像所有其他RSS /原子阅读器一样读取RSS或Atom提要。您可能需要查看相应的维基百科文章:http://en.wikipedia.org/wiki/RSS