将html(不是XML)解析为XElement的最佳实践?

时间:2010-01-14 19:04:42

标签: c# html parsing

我有这段代码:

var url = textBox1.Text;
WebClient wc = new WebClient();

var page= wc.DownloadString(url);
XElement doc = XElement.Parse(page);

它因意外字符而异常失败。 显然,我试图以这种愚蠢的方式解析的HTML并不是严格的xml。 什么是将任意HTML解析为IQueriable的下一个最简单的方法?

我真正想要的是获取内部表格和分页链接。 然后用LINQ自己解析它们。

2 个答案:

答案 0 :(得分:2)

查看HTML Agility Pack:
http://www.codeplex.com/htmlagilitypack

答案 1 :(得分:0)

我能想到的最好的方法是搜索标签并解析内部的所有内容,对于包含分页链接的标签也是如此。希望将其缩小到可以使手动解析器写入。