刮刮成千上万的网页

时间:2014-02-12 07:07:34

标签: php curl web-scraping

我正在开发一个项目,要求cron在一次运行中刮掉数千个网页。 我在Google上找到了很多链接但找不到合适的解决方案。我已经使用了file_get_contents,cURL等,但脚本总是在执行之间失败。我在共享服务器上托管了我的网站。

我还想每天抓取网页数据。如果有人能够为我的问题找到正确的解决方案,那将是一个很大的帮助。

2 个答案:

答案 0 :(得分:0)

根据您选择的语言。你可以用

  1. 你的lanugaue中的file_get_content或同等功能

答案 1 :(得分:0)

你应该在cron上分割你的请求。 它不会使用wget或curl。由于时间或内存限制,您的脚本将失败。 例如,您可以拆分您的cron作业:

wget http://yoursite.com/yourCrawler.php?group=0
wget http://yoursite.com/yourCrawler.php?group=1
wget http://yoursite.com/yourCrawler.php?group=2

等。此外,您还应该对您的抓取工具进行更改以支持拆分。