Question

我正在开发一个项目，要求cron在一次运行中刮掉数千个网页。我在Google上找到了很多链接但找不到合适的解决方案。我已经使用了file_get_contents，cURL等，但脚本总是在执行之间失败。我在共享服务器上托管了我的网站。

我还想每天抓取网页数据。如果有人能够为我的问题找到正确的解决方案，那将是一个很大的帮助。

Answer 1

根据您选择的语言。你可以用

Answer 2

你应该在cron上分割你的请求。它不会使用wget或curl。由于时间或内存限制，您的脚本将失败。例如，您可以拆分您的cron作业：

wget http://yoursite.com/yourCrawler.php?group=0
wget http://yoursite.com/yourCrawler.php?group=1
wget http://yoursite.com/yourCrawler.php?group=2

等。此外，您还应该对您的抓取工具进行更改以支持拆分。