我使用RabbitMQ在Python中构建了一个带有工作池架构的分布式Web爬虫。
工作池因主节点存在瓶颈而闻名,但在这种情况下没有问题,因为在每个网页报废后,每个从节点都需要进行一些计算。主节点还必须能够协调多个“爬网”,以便每个查询启动一个线程。
上面描述的解决方案的主要问题是python中的线程处理和分布式通信真的慢。因此,我愿意在其他方面改变编程语言以获得更高效的爬行。我问你,stackoverflowers,我应该用哪种语言建立我的爬虫?请记住我在第二段中提到的规范。
问我任何你不理解的事。谢谢!