根据网站网址(例如https://stackoverflow.com/),该任务将返回网站上所有可用Feed的列表。方法可以接受:
a)以编程方式使用第三方服务(google?,yahoo?,...) b)使用爬虫/蜘蛛(以及如何配置蜘蛛以仅返回rss / xml提要的一些提示) c)以编程方式使用c / c ++ / php(任何语言/库)
此处的任务不是获取网址返回的页面上包含的所有Feed,而是获取服务器上任何深度的所有Feed ...在任何情况下,请提供一个简单的用法示例。
答案 0 :(得分:1)
我知道这样做的唯一方法是依赖于RSS发现协议,该协议已经持续了大约4年。抓取网站,并在HTML页面中查找RSS自动发现代码:
<link rel="alternate" type="application/rss+xml"
title="Something"
href="http://www.example.com/feed1.xml” />