我有10,000个公司网站的列表,如果他们有一个(任何和所有rss版本),我正试图发现他们的博客供稿。如果我不需要,我不想抓取它们,那么是否有任何工具或特定技巧可以找到大部分的Feed(如果存在的话)?
我的第一个想法是寻找博客订阅源的标准位置,但大多数这些网站主要不是博客,而是企业网站。欢迎任何建议。
首选基于PHP的工具。
答案 0 :(得分:2)
抓取他们是唯一明智的选择,你可能只需要打他们的主页。我会使用Feed::Find来获取页面并检测Feed URI。
答案 1 :(得分:2)
当您将博客网址粘贴到Google阅读器时,它可以自动保存RSS路径。谷歌阅读器最常做的就是检查
之类的源代码 <link rel="alternate" type="application/atom+xml" ..
或
<link rel="alternate" type="application/rss" ..
当您在常规页面上冲浪时,Firefox和其他一些浏览器可以显示RSS图标。您可以看到Firefox源代码以获得健康的结果。
除此之外,您还可以考虑查看/blog
,/rss
,/blog/feed
,blog.*.com/feed
,/atom
或*.xml
等网址,*.feed
,*.rss
这些几乎是最流行的RSS路径imho。