从HTML LINK标记中提取RSS / ATOM URL的最佳方法是什么?我知道正则表达式不是最好的方法,所以我想知道我有什么替代品。当然,在将HTML加载到字符串后使用.Contains的某种可怕的字符串也不是最佳的。有人为此制定了一个不错的策略吗?
答案 0 :(得分:0)
也许Html Agility Pack可以帮到你。没有用它。但是听到它的好消息。
答案 1 :(得分:0)
使用XPath。
1. Convert an HTML into an XHTML with Tidy
2. With the XHTML, use XPath to search for the link
/html/head/link[@type='application/rss+xml']