标签: python web-crawler web-scraping
我想从使用Ajax调用加载DOM元素的页面中抓取数据。
我尝试使用旧的解决方案行基于PyQt4的抓取,它在完全加载后加载DOM,但问题是我需要执行POST请求并且它仅适用于GET。
新的Python模块ghost.py存在超时问题:当它获取大型DOM树时会引发超时异常。
如果有人知道任何特定方式或工具可以帮助我完成POST请求并在完全加载DOM后获取数据,那将对我有所帮助。
答案 0 :(得分:2)
您可以使用Selenium自动启动浏览器并访问dom。 Selenium有python驱动程序,因此你可以在python中编写代码来导航到页面。点击按钮并等待ajax调用完成后再开始报废。
答案 1 :(得分:0)
为了模拟Javascript并自动化浏览器,我建议使用`Spynner。您可以使用或不使用Xserver运行它,语法非常简单易用。你也可以加载jquery。