Web scraper是否受CPU,RAM或IO的限制?

时间:2013-03-14 20:59:37

标签: php web-scraping screen-scraping

当使用PHP编写Web抓取工具(运行nginx,ubuntu)时,我们希望一次抓取许多不同网站的刮刀,这将是什么限制因素?

CPU,RAM或磁盘IO?

1 个答案:

答案 0 :(得分:1)

RAM和磁盘IO可能会在CPU之前很久就会受到限制,具体取决于您运行的同步进程的方式。每个scraper可能会维护一个关联的访问URL和找到的资源数组。对于大型网站,这将是......很大,特别是如果您为每个网址允许4k并将其存储为原始网站。

您可能会对URL进行散列(40字节GUID或更小的二进制表示),这样可以节省大量RAM。

尽可能避免磁盘I / O,仅在绝对必要时编写以减轻其影响,并考虑写入数据库而不是写入可能是网络安装的磁盘文件。