如何使用PHP,CURL抓取一个javascript站点

时间:2012-02-18 16:07:22

标签: php curl domdocument domxpath

  

可能重复:
  How do I render javascript from another site, inside a PHP application?

这是网站http://www.oferta.pl/strona_v2/gazeta_v2/。该网站完全基于JavaScript构建。我想用PHP和curl刮掉。目前我使用DOMXPath。在左侧菜单中有一些要选择的类别。我看不到那里的'形式'。如何使用curl提交该表单并废弃输出页面?

我只使用了file_get_contents()。它没有得到所有的页面。我该怎么办?

N.B:http://www.html-form-guide.com/php-form/php-form-submit.html我发现这个例子有一个'形式'。但我指定的网站没有“表格”。

1 个答案:

答案 0 :(得分:1)

你不能刮它。这是可能的。但它的方式太难了。

  1. 通过curl模拟http请求。检查 ajax 所做的每个请求,然后尝试模拟它。

  2. 模拟Javascript执行(这部分几乎不可能)。某些请求包含由Javascript生成的值。你需要在php中完成它。如果他们在JS中实现了一些复杂的算法,你可以调用v8 javascript引擎。