是否有任何Python模块有助于从Javascript加载的DOM中抓取数据?

时间:2012-04-28 05:14:59

标签: python web-crawler web-scraping

我想从使用Ajax调用加载DOM元素的页面中抓取数据。

我尝试使用旧的解决方案行基于PyQt4的抓取,它在完全加载后加载DOM,但问题是我需要执行POST请求并且它仅适用于GET。

新的Python模块ghost.py存在超时问题:当它获取大型DOM树时会引发超时异常。

如果有人知道任何特定方式或工具可以帮助我完成POST请求并在完全加载DOM后获取数据,那将对我有所帮助。

2 个答案:

答案 0 :(得分:2)

您可以使用Selenium自动启动浏览器并访问dom。 Selenium有python驱动程序,因此你可以在python中编写代码来导航到页面。点击按钮并等待ajax调用完成后再开始报废。

答案 1 :(得分:0)

为了模拟Javascript并自动化浏览器,我建议使用`Spynner。您可以使用或不使用Xserver运行它,语法非常简单易用。你也可以加载jquery。