我为抓取工具设置了基本结构。现在我在一些php驱动的网站上发布它,它就像一个魅力。虽然现在我想从ajax内容构建数据表。
目前我正在使用Mechanize for PYTHON和perl构建我的抓取工具。虽然Mechanize模块不执行AJAX。我如何获得由异步ajax构建的内容?
我知道有一种名为Selenium的东西,一种真正的自动化浏览器。但这是我唯一的选择吗?
答案 0 :(得分:1)
您可以运行无头浏览器,例如phantomjs,它可以理解JavaScript,DOM等,但您必须使用Javascript编写代码,这样做的好处就是您可以随心所欲。
还有另一种方法,但messy
。
您可以观察单击按钮时所做的请求(使用Firefox中的Firebug或Chrome中的开发人员工具)。比尝试对页面后面运行的javascript进行逆向工程,并尝试使用你的python代码做类似的事情,为此看看Spidermonkey