最近我尝试编写一个网络蜘蛛,所以我找到一些关于用PHP编写的网络蜘蛛的项目。
在这些项目中,我发现经常使用扩展名“PCNTL”,但我找不到任何有关它的详细教程或手册。
所以我想知道扩展名“PCNTL”是否真的适合网络蜘蛛?如果没有,有什么替代方案。
答案 0 :(得分:0)
“PCNTL”是具有类C过程相关功能的扩展,最值得注意的是fork
。
我不确定是否有好的教程,但您可以查看C / C ++示例以了解如何使用这些PHP函数。
几年前我们做了网络爬虫。我们使用了一个shell脚本而不是fork
,而脚本并行启动了100个爬虫实例。
另一种选择是curl-multi
,但是再一次没有足够的信息和教程。我们尝试过,我们发现它不太可靠,但我相信你应该检查它。
另一种选择是在Python中完成 - 有几种不同的程序库可以提供很多可能性。