我正在寻找一个C#库,它将HTML代码(以及代码中指定的css)转换为DOM树,以便进行更简单的解析。我正在寻找类似于这个(在PHP中)的东西: http://simplehtmldom.sourceforge.net/
当然我知道我可以嵌入浏览器控件,但我正在寻找更高效的东西。
答案 0 :(得分:3)
查看HTML Agility Pack。它暂时没有更新,但它仍然运行良好。
答案 1 :(得分:0)
我是HtmlAgilityPack上的Dorman先生。我前段时间做过brief blog post on web scraping;它提到了'包装,但主要是讨论其他细节。根据您的应用程序,它可能有一些用处。
答案 2 :(得分:0)
我们在项目中使用HTMLAgility来使用XPath提取具有给定属性集的特定html标记,并且它从未让我们失望。
答案 3 :(得分:0)
无法使用这样的样式获取DOM。只有选项是“Selenium”框架才能与真正的浏览器一起使用。