我正在使用PHPCrawl类来抓取网站并构建链接列表。这一切都运行良好,如果缓慢,然后我使用链接执行其他任务。
我遇到了一个问题,我第一次运行它完成的脚本没有结果,然后下次运行它时按预期工作。它失败了大约30%的时间。
我起初认为这是网络或工作站问题,但使用不同的ISP在不同位置的其他计算机上也会出现同样的问题。
有没有其他人使用过这个类并遇到同样的问题?
答案 0 :(得分:0)
经过大量测试后,我发现它似乎与streamTimeout设置有关。
这里的问题是将其设置得太高会导致爬行速度非常慢。修改connectionTimeout似乎可以稍微调整一下。