我正在构建一个蜘蛛,它将遍历各个站点并对其进行数据挖掘。
由于我需要单独获取每个页面,这可能需要很长时间(可能是100页)。 我已经将set_time_limit设置为每页2分钟,但似乎apache会在5分钟后杀死脚本,无论如何。
这通常不是问题,因为这将从cron或类似的东西运行,没有这个时间限制。但是我也希望管理员能够通过HTTP接口手动启动提取。
apache在整个持续时间内保持活动并不重要,我将使用AJAX触发一次获取并使用AJAX检查一次。
我的问题是如何在PHP脚本中启动提取,而不会在调用它的脚本终止时终止提取。
也许我可以使用system('script.php&'),但我不确定它会不会这样做。 还有其他想法吗?
答案 0 :(得分:6)
$cmd = "php myscript.php $params > /dev/null 2>/dev/null &";
# when we call this particular command, the rest of the script
# will keep executing, not waiting for a response
shell_exec($cmd);
这样做是将所有STDOUT和STDERR发送到/ dev / null,并且脚本继续执行。即使'parent'脚本在myscript.php之前完成,myscript.php也会完成执行。
答案 1 :(得分:1)
如果您不想使用exec,可以使用php内置函数!
ignore_user_abort(true);
即使浏览器和服务器之间的连接断开,这也会告诉脚本恢复;)