这只是一个普遍的问题。目前我正在使用正则表达式进行网页抓取。但我认为有时候很难弄清楚正则表达式,所以我认为XSL / XPath是C#中正则表达式的替代品吗?
此外,我想知道除了上面列出的两个之外是否还有更先进的网页抓取技术。谢谢。
答案 0 :(得分:7)
您可以查看SgmlReader或Html Agility Pack这些是.NET的HTML解析库。
答案 1 :(得分:0)
从网页收集数据的简便方法是WebsiteParser。它基于Html Agility Pack,您可以使用属性和CSS选择器简单地描述属性。
Github here