坚持这个特殊问题。我的代码可以从论坛获取大量页面,即www.q8yat.net。现在我有一个循环使用curl从论坛获取页面。在我的localhost上一切正常。当我上传我的服务器上的文件并尝试获取页面时,我会收到连接超时错误,通常是在加载了固定数量的页面后但是并非总是如此。我使用的卷曲选项是:
$options = array(
CURLOPT_RETURNTRANSFER => true, // return web page
CURLOPT_HEADER => false, // don't return headers
CURLOPT_FOLLOWLOCATION => true, // follow redirects
CURLOPT_ENCODING => "", // handle all encodings
CURLOPT_USERAGENT => "spider", // who am i
CURLOPT_AUTOREFERER => true, // set referer on redirect
CURLOPT_CONNECTTIMEOUT => 1, // timeout on connect
CURLOPT_TIMEOUT => 1200, // timeout on response
CURLOPT_MAXREDIRS => 10, // stop after 10 redirects
);
我服务器的phpinfo:http://topics4today.com/public/02_12_2010/fcrawl/src/phpinfo.php
好吧我相信论坛正在使用apache模块:'mod_bwlimited'来限制我可以根据我的ip请求的数据量。可能性。
答案 0 :(得分:1)
好的论坛正在使用apache模块:'mod_bwlimited'来限制我可以根据我的ip请求的数据量。可以通过在每次运行脚本中仅请求有限数量的页面来解决问题。例如。你的脚本运行,要求2页,停止,然后再次启动(使用javascript计时器)并再请求2页,这将继续循环。