我编写了一个php网络抓取工具来索引仅180个特定来源的内容,但每页平均需要2秒才能分析,抓取并保存我想要的内容:图片,网址,标题,完整内容,摘录,标签。 (有几种算法可以分析所有元标记以获得正确的数据)
我只抓取最新的9篇文章页面,因此每个来源需要18-25秒。
我创建了10个不同的cron作业(它们之间有6分钟),因此每个作业可以处理18个来源(大约350秒)。
这似乎非常低效,特别是如果我想要达到1k来源。我应该修改什么?
ps:我在共享主机上测试它,专用服务器会大幅减少时间吗?
cron的工作就像:
lynx -auth用户名:密码website.com/crawler.php?group=1
lynx -auth用户名:密码website.com/crawler.php?group=2
lynx -auth用户名:密码website.com/crawler.php?group=3 等
并且爬虫脚本从数据库访问18个来源,获取最新的9个文章页面并抓取内容,进行分析并根据结果将其存储在数据库中。
答案 0 :(得分:1)
老实说,不要为此使用cron作业。设置一个守护进程,它将一直运行。重生,如果它崩溃等等。