有没有一个库可以通过AJAX / javascript跋涉?

时间:2012-06-17 15:41:54

标签: java php ajax curl screen-scraping

我正在使用PHP从网页上删除一些信息,但是,我发现我试图从页面中删除的信息是通过某种方式加载AJAX / javascript。我以为我记得Curl可以遍历javascript,但我发现事实并非如此。

我似乎记得某种后端“网络浏览器”库/功能可以追踪javascript和AJAX,以获得全功能浏览器到达的最终页面结果。

是否有可以执行此操作的库或函数?关于如何解决这个问题的任何想法,除了必须手动追踪脚本/重定向自己?它不一定非常漂亮 - 我只是想抓取结果文本。

2 个答案:

答案 0 :(得分:1)

我认为没有这样的图书馆。如果你真的很绝望,并且你手上有很多时间,那么你当然可以下载Firefox的源代码,并为自己建立一些有用的东西。但是,我认为这不会最好地利用你的或任何其他人的资源。

请注意,即使谷歌的索引机器人也不会处理ajax。 Here就是谷歌所说的。您正在处理的网站很可能支持这种情况,在这种情况下您可以尝试使用这种谷歌技术,但总的来说,不幸的是,您运气不佳。

答案 1 :(得分:1)

也许不是在PHP,但在其他语言中有:Watir / WatiN,selenium,watir / selenium-webdriver,capybara-webkit,celerity,node.js直接运行js,以及phantomjs。还有iMacros和类似的商业选择。

但是我通常会发现只要查看页面发出的请求并重新创建它们/解析响应,我就可以获得我想要的数据而不需要任何这些数据。