Question

我有这段代码：

var url = textBox1.Text;
WebClient wc = new WebClient();

var page= wc.DownloadString(url);
XElement doc = XElement.Parse(page);

它因意外字符而异常失败。显然，我试图以这种愚蠢的方式解析的HTML并不是严格的xml。什么是将任意HTML解析为IQueriable的下一个最简单的方法？

我真正想要的是获取内部表格和分页链接。然后用LINQ自己解析它们。

Answer 1

Answer 2

我能想到的最好的方法是搜索标签并解析内部的所有内容，对于包含分页链接的标签也是如此。希望将其缩小到可以使手动解析器写入。