Question

如何发现网站的供稿网址？

当我抓取Microsoft's blog HTML时，我可以看到：

<link rel="alternate" type="application/rss+xml" title="Site Home (RSS 2.0)" href="http://blogs.technet.com/rss.aspx"  />
<link rel="alternate" type="application/rss+xml" title="B1ackD0g&#39;s Comments (RSS 2.0)" href="/members/B1ackD0g/comments/rss.aspx"  />
<link rel="alternate" type="application/rss+xml" title="B1ackD0g&#39;s Activities (RSS 2.0)" href="/members/B1ackD0g/activities/rss.aspx"  />
<link rel="alternate" type="application/rss+xml" title="Activities of People B1ackD0g Follows (RSS 2.0)" href="/members/B1ackD0g/activities/followersrss.aspx"  />
<link rel="alternate" type="application/rss+xml" title="B1ackD0g&#39;s Groups Activities (RSS 2.0)" href="/members/B1ackD0g/activities/groupsrss.aspx"  />
<link rel="alternate" type="application/rss+xml" title="The Official Microsoft Blog – News and Perspectives from Microsoft (RSS 2.0)" href="http://blogs.technet.com/b/microsoft_blog/rss.aspx"  />
<link rel="alternate" type="application/atom+xml" title="The Official Microsoft Blog – News and Perspectives from Microsoft (Atom 1.0)" href="http://blogs.technet.com/b/microsoft_blog/atom.aspx"  />

我可以假设我可以查找带有以“http://blogs.technet.com/b/microsoft_blog/”开头的href标签

这样可以安全吗？

我需要做的是基本上获取一个网址并返回其Feed网址。

Answer 1

没有安全的方法来假设网站的网址是什么而不知道它。在此示例中，属性type值似乎足以确定Feed，但不保证在示例之外设置。您可以尝试通过在标记中搜索包含RSS的链接，甚至针对像feedburner http://feeds.feedburner.com/somedomain这样的服务进行测试来猜测，但您仍然无法确定。

发现网站的供稿网址

1 个答案: