我创建了一个可以作为cron作业运行的爬虫。抓取工具的目标是浏览我网站上的帖子并从中提取关键字。
目前,我正在为速度和服务器负载优化脚本 - 但我很好奇每种类型的基准测试被认为是“好”的吗?
例如,以下是我测试的一些配置,每次运行5,000个帖子(你会注意到速度和内存之间的权衡):
测试1 - 针对内存保护优化的脚本:
Run time: 52 seconds
Avg. memory load: ~6mb
Peak memory load: ~7mb
测试2 - 针对速度优化的脚本
Run time: 30 seconds
Avg. memory load: ~40mb
Peak memory load: ~48mb
显然,这里的决定是速度与服务器负载。我很好奇你对这些数字的反应。 40mb是一个昂贵的数字,如果它如此大幅度提高速度(并最小化MySQL连接?)
或者,使用更多MySQL连接更慢地运行脚本,并将开销内存保持在低水平?
答案 0 :(得分:3)
这是一个非常主观的问题,因为什么是“可容忍的”取决于许多因素,例如将运行多少并发进程,它将运行的硬件的规格,以及您期望它需要多长时间