如何发现给定站点的RSS源

时间:2010-05-04 16:57:17

标签: xml rss feeds discover

根据网站网址(例如https://stackoverflow.com/),该任务将返回网站上所有可用Feed的列表。方法可以接受:

a)以编程方式使用第三方服务(google?,yahoo?,...) b)使用爬虫/蜘蛛(以及如何配置蜘蛛以仅返回rss / xml提要的一些提示) c)以编程方式使用c / c ++ / php(任何语言/库)

此处的任务不是获取网址返回的页面上包含的所有Feed,而是获取服务器上任何深度的所有Feed ...在任何情况下,请提供一个简单的用法示例。

1 个答案:

答案 0 :(得分:1)

我知道这样做的唯一方法是依赖于RSS发现协议,该协议已经持续了大约4年。抓取网站,并在HTML页面中查找RSS自动发现代码:

<link rel="alternate" type="application/rss+xml" 
      title="Something" 
      href="http://www.example.com/feed1.xml” />