我有一项任务要做。
我需要下载网页并查看该网页是否包含任何RSS Feed。
我知道如何使用C#中的Http API将网页下载到字符串,但是如何确定http页面字符串是否包含任何RSS提要?
由于
杰克
答案 0 :(得分:1)
我希望您必须将页面加载到dom(XmlDocument
,XDocument
或HtmlDocument
)并检查以下节点:
<link rel="alternate" type="application/atom+xml" ...
这应该是(在xpath中)"/html/head/link[@rel='alternate' and @type='application/atom+xml']"
之类的内容 - 然后查看@title
和@href
。
答案 1 :(得分:1)
而不是将HTML加载到XMLDocument中(如果它不符合XHTML,则可能无法实现),请尝试使用HTML Agility Pack。它为您提供类似XMLDocument的语法,但您可以使用格式错误的HTML。
但通常情况下,您会在页面中查找该链接标记..
答案 2 :(得分:1)
使用正则表达式检查链接标记的HTML。
详尽的方法是蜘蛛网每个href链接并检查rss或atom标签的内容类型和存在......