如何以编程方式发现给定域上的博客Feed?

时间:2011-06-29 04:26:37

标签: php xml rss blogs

我有10,000个公司网站的列表,如果他们有一个(任何和所有rss版本),我正试图发现他们的博客供稿。如果我不需要,我不想抓取它们,那么是否有任何工具或特定技巧可以找到大部分的Feed(如果存在的话)?

我的第一个想法是寻找博客订阅源的标准位置,但大多数这些网站主要不是博客,而是企业网站。欢迎任何建议。

首选基于PHP的工具。

2 个答案:

答案 0 :(得分:2)

抓取他们是唯一明智的选择,你可能只需要打他们的主页。我会使用Feed::Find来获取页面并检测Feed URI。

答案 1 :(得分:2)

当您将博客网址粘贴到Google阅读器时,它可以自动保存RSS路径。谷歌阅读器最常做的就是检查

之类的源代码

<link rel="alternate" type="application/atom+xml" ..

<link rel="alternate" type="application/rss" ..

当您在常规页面上冲浪时,Firefox和其他一些浏览器可以显示RSS图标。您可以看到Firefox源代码以获得健康的结果。

除此之外,您还可以考虑查看/blog/rss/blog/feedblog.*.com/feed/atom*.xml等网址,*.feed*.rss这些几乎是最流行的RSS路径imho。