使用python scrapy通过多线程抓取网页

时间:2014-05-25 05:44:11

标签: python web-scraping scrapy

使用scrapy通过多线程scrapy内部实现来抓取数据的可能性本身就是一个多线程的?

1 个答案:

答案 0 :(得分:1)

Scrapy内部行为完全异步且事件驱动,因为它基于twisted

请参阅Architecture Overview,尤其要注意Data Flow部分。

您可能还想查看scrapyd项目:

  

Scrapyd是一个监听的应用程序(通常作为守护程序运行)   请求蜘蛛运行并为每个蜘蛛生成一个进程。

     

Scrapyd还并行运行多个进程,将它们分配到一个进程中   max_proc和max_proc_per_cpu给出的固定槽数   选项,从尽可能多的进程开始处理负载。