怎么刮ajax装师?

时间:2015-07-31 10:38:33

标签: php ajax perl curl simple-html-dom

标题说明了一切。请给我一些如何刮掉AJAX加载的分区。

有一个网站有产品网格部门。我希望这个部门废弃来自它的数据,但问题是当我在另一个html页面中获取页面内容数据时,没有产品网格,因为它在一段时间后通过AJAX加载。对于Scrapping,我使用PHP尝试了Perl和CURL。

提前致谢。

2 个答案:

答案 0 :(得分:1)

来自WWW::Mechanize::FAQ

  

哪些模块像Mechanize一样工作并且支持JavaScript?

     

没有特别的顺序:Gtk2 :: WebKit :: Mechanize,Win32 :: IE :: Mechanize,   WWW :: Mechanize :: Firefox,WWW :: Scripter,WWW :: Selenium

另见:How do you scrape AJAX pages?

答案 1 :(得分:1)

使用Selenium,例如通过Selenium::Remote::Driver,您将运行真正的浏览器来访问该网站。网站可能对浏览器行为的微妙差异非常敏感。