我有一个关于 5.000.000网址的列表,我需要尽可能快地获取 。
现在我使用Scala的Akka和AsyncHttpClient来执行HTTP请求。架构非常简单:我创建单个主要角色和import pyximport
pyximport.install()
import MyCyModule
工作者(N
通常在100到1000之间)并发送URL以通过N
获取给工作人员。然而,在具有16Gb内存和1Gbit / sec网络的8核心机器上,它仅提供~250个请求/秒,其中三个资源完全未充分利用(CPU~20%,网络~120Mbit / sec)。
我做错了吗?我应该使用不同的工具或/和方法吗?