如何发现网站的供稿网址?
当我抓取Microsoft's blog HTML时,我可以看到:
<link rel="alternate" type="application/rss+xml" title="Site Home (RSS 2.0)" href="http://blogs.technet.com/rss.aspx" />
<link rel="alternate" type="application/rss+xml" title="B1ackD0g's Comments (RSS 2.0)" href="/members/B1ackD0g/comments/rss.aspx" />
<link rel="alternate" type="application/rss+xml" title="B1ackD0g's Activities (RSS 2.0)" href="/members/B1ackD0g/activities/rss.aspx" />
<link rel="alternate" type="application/rss+xml" title="Activities of People B1ackD0g Follows (RSS 2.0)" href="/members/B1ackD0g/activities/followersrss.aspx" />
<link rel="alternate" type="application/rss+xml" title="B1ackD0g's Groups Activities (RSS 2.0)" href="/members/B1ackD0g/activities/groupsrss.aspx" />
<link rel="alternate" type="application/rss+xml" title="The Official Microsoft Blog – News and Perspectives from Microsoft (RSS 2.0)" href="http://blogs.technet.com/b/microsoft_blog/rss.aspx" />
<link rel="alternate" type="application/atom+xml" title="The Official Microsoft Blog – News and Perspectives from Microsoft (Atom 1.0)" href="http://blogs.technet.com/b/microsoft_blog/atom.aspx" />
我可以假设我可以查找带有以“http://blogs.technet.com/b/microsoft_blog/”开头的href标签
这样可以安全吗?
我需要做的是基本上获取一个网址并返回其Feed网址。
答案 0 :(得分:0)
没有安全的方法来假设网站的网址是什么而不知道它。在此示例中,属性type
值似乎足以确定Feed,但不保证在示例之外设置。您可以尝试通过在标记中搜索包含RSS的链接,甚至针对像feedburner http://feeds.feedburner.com/somedomain这样的服务进行测试来猜测,但您仍然无法确定。