我正在开发一个项目,要求cron在一次运行中刮掉数千个网页。 我在Google上找到了很多链接但找不到合适的解决方案。我已经使用了file_get_contents,cURL等,但脚本总是在执行之间失败。我在共享服务器上托管了我的网站。
我还想每天抓取网页数据。如果有人能够为我的问题找到正确的解决方案,那将是一个很大的帮助。
答案 0 :(得分:0)
根据您选择的语言。你可以用
答案 1 :(得分:0)
你应该在cron上分割你的请求。 它不会使用wget或curl。由于时间或内存限制,您的脚本将失败。 例如,您可以拆分您的cron作业:
wget http://yoursite.com/yourCrawler.php?group=0
wget http://yoursite.com/yourCrawler.php?group=1
wget http://yoursite.com/yourCrawler.php?group=2
等。此外,您还应该对您的抓取工具进行更改以支持拆分。