Question

我正在构建一个蜘蛛，它将遍历各个站点并对其进行数据挖掘。

由于我需要单独获取每个页面，这可能需要很长时间（可能是100页）。我已经将set_time_limit设置为每页2分钟，但似乎apache会在5分钟后杀死脚本，无论如何。

这通常不是问题，因为这将从cron或类似的东西运行，没有这个时间限制。但是我也希望管理员能够通过HTTP接口手动启动提取。

apache在整个持续时间内保持活动并不重要，我将使用AJAX触发一次获取并使用AJAX检查一次。

我的问题是如何在PHP脚本中启动提取，而不会在调用它的脚本终止时终止提取。

也许我可以使用system（'script.php＆amp;'），但我不确定它会不会这样做。还有其他想法吗？

Answer 1

    $cmd = "php myscript.php $params > /dev/null 2>/dev/null &";

    # when we call this particular command, the rest of the script 
    # will keep executing, not waiting for a response
    shell_exec($cmd);

这样做是将所有STDOUT和STDERR发送到/ dev / null，并且脚本继续执行。即使'parent'脚本在myscript.php之前完成，myscript.php也会完成执行。

Answer 2

如果您不想使用exec，可以使用php内置函数！

ignore_user_abort(true);

即使浏览器和服务器之间的连接断开，这也会告诉脚本恢复;）

从PHP脚本运行PHP脚本而不会阻塞

2 个答案: