如何在C#中确定网页是否有RSS

时间:2009-11-19 12:12:32

标签: c# http rss

我有一项任务要做。

我需要下载网页并查看该网页是否包含任何RSS Feed。

我知道如何使用C#中的Http API将网页下载到字符串,但是如何确定http页面字符串是否包含任何RSS提要?

由于

杰克

3 个答案:

答案 0 :(得分:1)

我希望您必须将页面加载到dom(XmlDocumentXDocumentHtmlDocument)并检查以下节点:

<link rel="alternate" type="application/atom+xml" ...

这应该是(在xpath中)"/html/head/link[@rel='alternate' and @type='application/atom+xml']"之类的内容 - 然后查看@title@href

答案 1 :(得分:1)

而不是将HTML加载到XMLDocument中(如果它不符合XHTML,则可能无法实现),请尝试使用HTML Agility Pack。它为您提供类似XMLDocument的语法,但您可以使用格式错误的HTML。

但通常情况下,您会在页面中查找该链接标记..

答案 2 :(得分:1)

使用正则表达式检查链接标记的HTML。

详尽的方法是蜘蛛网每个href链接并检查rss或atom标签的内容类型和存在......