我们正在尝试使用cURL优化页面刮擦。每次我们对脚本执行负载测试时,我们的负载平均值都会上升。每当我们直接在页面上进行负载测试时,负载平均值就会下降。刮到站点的登录凭据,并在登录后加载我们想要立即抓取的列表。
刮刮 - 加载平均值为60秒 没有刮擦 - 青少年的负载平均值。
这是我们正在使用的cURL。我们正在研究其他问题点,但想知道是否有任何明显不好的问题。
$cookieJar = tempnam("/tmp", "CURLCOOKIE");
curl_setopt($this->curl_connection, CURLOPT_CONNECTTIMEOUT, 30);
curl_setopt($this->curl_connection, CURLOPT_USERAGENT,"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)");
curl_setopt($this->curl_connection, CURLOPT_RETURNTRANSFER, true);
curl_setopt($this->curl_connection, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($this->curl_connection, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($this->curl_connection, CURLOPT_UNRESTRICTED_AUTH, true);
curl_setopt($this->curl_connection, CURLOPT_COOKIEJAR, $cookieJar );
curl_setopt($this->curl_connection, CURLOPT_COOKIESESSION, !($cookieJar) ? true : false);
我没有显示代码,但我们会缓存页面。但即使打开它,它仍然会增加平均负载。 curl-multi-exec是可行的选择还是让事情变得更糟。