标签: python database amazon-ec2 web-scraping
我有一台服务器,其工作是通过给定的网址下载网页。它始终从同一群集中的多个服务器接收URL。为了构建这个,我想使用类似队列的数据库来接收从不同服务器发送的URL,并且数据库也应该确保处理并发性。其他服务器继续向数据库提供网址,此服务器上的程序将抓取这些网址,然后下载网页。 是否有任何类似队列的数据库可以完成这项工作?或者我应该使用类似队列的数据库进行更好的设计。
答案 0 :(得分:2)
我建议使用消息队列,而不是使用数据库来执行此任务。其他服务器可以在队列上发布请求,下载服务器可以一次一个地处理队列中的任务,也可以按发布请求的顺序处理任务。
我建议您查看RabbitMQ,因为它很容易上手。既然你已经用'python'标记了这个问题,那么Celery也许值得研究。