构建快速分布式Web爬网程序

时间:2017-11-06 19:01:52

标签: web-crawler message-queue distributed-computing

我使用RabbitMQ在Python中构建了一个带有工作池架构的分布式Web爬虫。

工作池因主节点存在瓶颈而闻名,但在这种情况下没有问题,因为在每个网页报废后,每个从节点都需要进行一些计算。主节点还必须能够协调多个“爬网”,以便每个查询启动一个线程。

上面描述的解决方案的主要问题是python中的线程处理和分布式通信真的慢。因此,我愿意在其他方面改变编程语言以获得更高效的爬行。我问你,stackoverflowers,我应该用哪种语言建立我的爬虫?请记住我在第二段中提到的规范。

问我任何你不理解的事。谢谢!

0 个答案:

没有答案