确定网站集是否包含RSS源

时间:2014-02-23 19:14:08

标签: java python rss

我遇到以下问题:

我有一组主机,有效的URI我需要确定他们是否有RSS输入? 最大的问题是我拥有的集合很大,所以我不能手动完成它们,我需要编写一个Java或python工具才能通过它们并确定它们是否有rss feed?

我真的需要这样做,但实现起来确实非常困难,尤其是在大型数据收集方面。

如果有人对我如何做到这一点有任何想法,或者我可以在哪里找到相关信息,欢迎在下面发表评论。

感谢。

1 个答案:

答案 0 :(得分:2)

您可以获取页面的来源并验证“head”中的link元素是否具有以下格式:rel =“alternate”type =“application / rss + xml”

<head>
  <link rel="alternate" type="application/rss+xml" title="RSS 2.0" href="http://url_to_test" />
</head>