使用C#抓取网页(html)

时间:2011-02-16 18:21:23

标签: c# html regex xpath

这只是一个普遍的问题。目前我正在使用正则表达式进行网页抓取。但我认为有时候很难弄清楚正则表达式,所以我认为XSL / XPath是C#中正则表达式的替代品吗?

此外,我想知道除了上面列出的两个之外是否还有更先进的网页抓取技术。谢谢。

2 个答案:

答案 0 :(得分:7)

您可以查看SgmlReaderHtml Agility Pack这些是.NET的HTML解析库。

答案 1 :(得分:0)

从网页收集数据的简便方法是WebsiteParser。它基于Html Agility Pack,您可以使用属性和CSS选择器简单地描述属性。

Github here