应用错误收集

在HtmlAgilityPack中运行脚本

时间：2012-07-09 10:17:43

标签： c# javascript html-agility-pack

我正在尝试抓取一个如下工作的特定网页。

首先加载页面，然后运行某种javascript来获取填充页面所需的数据。我对这些数据很感兴趣。

如果我使用HtmlAgilityPack获取页面 - 脚本没有运行，所以我得到它本质上是一个空白页面。

有没有办法强制它运行脚本，所以我可以获取数据？

2 个答案:

答案 0 :(得分：12)

您正在获取服务器返回的内容 - 与Web浏览器相同。当然，Web浏览器会运行脚本。 Html Agility Pack只是一个HTML解析器 - 它无法解释javascript或将其绑定到文档的内部表示。如果您想运行该脚本，则需要Web浏览器。对您的问题的完美答案将是一个完整的“无头”Web浏览器。这是一个包含HTML解析器，javascript解释器和模拟浏览器DOM的模型的东西，它们一起工作。基本上，这是一个Web浏览器，除了没有渲染部分。目前还没有完全在.NET环境中运行的东西。

您最好的选择是使用WebBrowser控件，并在程序控制下实际加载并运行Internet Explorer中的页面。这不会很快或很漂亮，但它会做你需要做的事情。

另请参阅我对类似问题的回答：Load a DOM and Execute javascript, server side, with .Net讨论了.NET中可用的技术。不幸的是，大部分作品现在都存在，但还没有完全存在或者没有以正确的方式整合。

答案 1 :(得分：3)

您可以使用Awesomium，http://www.awesomium.com/。它运行得相当好，但不支持x64，并且不是线程安全的。我用它来扫描一些网站24x7并且它连续运行至少几天然后它通常会崩溃。