从HTML LINK标记中提取RSS / ATOM URL

时间:2008-12-03 22:50:35

标签: c# asp.net

从HTML LINK标记中提取RSS / ATOM URL的最佳方法是什么?我知道正则表达式不是最好的方法,所以我想知道我有什么替代品。当然,在将HTML加载到字符串后使用.Contains的某种可怕的字符串也不是最佳的。有人为此制定了一个不错的策略吗?

2 个答案:

答案 0 :(得分:0)

也许Html Agility Pack可以帮到你。没有用它。但是听到它的好消息。

答案 1 :(得分:0)

使用XPath。

1. Convert an HTML into an XHTML with Tidy
2. With the XHTML, use XPath to search for the link
    /html/head/link[@type='application/rss+xml']