我有这段代码:
var url = textBox1.Text;
WebClient wc = new WebClient();
var page= wc.DownloadString(url);
XElement doc = XElement.Parse(page);
它因意外字符而异常失败。 显然,我试图以这种愚蠢的方式解析的HTML并不是严格的xml。 什么是将任意HTML解析为IQueriable的下一个最简单的方法?
我真正想要的是获取内部表格和分页链接。 然后用LINQ自己解析它们。
答案 0 :(得分:2)
查看HTML Agility Pack:
http://www.codeplex.com/htmlagilitypack
答案 1 :(得分:0)
我能想到的最好的方法是搜索标签并解析内部的所有内容,对于包含分页链接的标签也是如此。希望将其缩小到可以使手动解析器写入。