您如何通过具有很多联系的刮板刮擦?

时间:2019-07-10 18:20:56

标签: scrapy web-crawler tor

我使用的链条带有刮擦+ privoxy +托。 当我同时启动许多蜘蛛(20+)时,我的脑袋死了。我的蜘蛛包括长期工作和50/50的快速工作。在Spiders日志中,我得到“ 503服务不可用”。

我的Tor日志说:

  

circuit_predict_and_launch_new():具有0个干净的圈子(内部为0个),需要另一个退出圈子

  

尝试120秒以获取与[scrubbed]:80的连接。放弃。 (等待集合点说明)

  

没有电路断开。电路56(在通道状态为打开状态下进行握手的通用客户端3跳电路)的超时超时时间降至60000ms。但是,电路似乎仍然超时。   以及许多其他错误。

     

7月11日11:07:22.000 [debug] conn_read_callback():套接字13要读取。   7月11日11:07:22.000 [debug] connection_buf_read_from_socket():13:开始,inbuf_datalen 0(在tls对象中为0,未决)。至少16448。   7月11日11:07:22.000 [debug] connection_buf_read_from_socket():TLS读取514之后:读取543,写入0   7月11日11:07:22.000 [debug] connection_or_process_cells_from_inbuf():13:开始,inbuf_datalen 514(tls对象中有0个待处理)。   7月11日11:07:22.000 [debug] channel_process_cell():正在处理通道0x559406d49690(全局ID 7)的传入cell_t 0x7ffc27c39d50   7月11日11:07:22.000 [debug] circuit_get_by_circid_channel_impl():circuit_get_by_circid_channel_impl()返回circ_id 4046120911的电路0x559406d3b4e0,通道ID 7(0x559406d49690)   7月11日11:07:22.000 [debug] command_process_destroy_cell():已收到circID 4046120911。   7月11日11:07:22.000 [信息] circuit_mark_for_close_():电路0(id:256)标记为在../src/core/or/command.c处关闭:c:654(原始原因:517,新原因:0)   7月11日11:07:22.000 [debug] connection_or_process_cells_from_inbuf():13:开始,inbuf_datalen 0(在tls对象中为0,未决)。   7月11日11:07:22.000 [debug] circuit_increment_failure_count():现在n_circuit_failures 6。   7月11日11:07:22.000 [info] circuit_free_():电路0(标识:256)已释放。   7月11日11:07:23.000 [debug] circuit_remove_handled_ports():未处理端口443。   7月11日11:07:23.000 [info] circuit_predict_and_launch_new():拥有0个干净的圈子(内部为0个),需要另一个退出圈子。   7月11日11:07:24.000 [debug] circuit_remove_handled_ports():未处理端口443。   7月11日11:07:24.000 [info] circuit_predict_and_launch_new():拥有0个干净的圈子(内部为0个),需要另一个退出圈子。   7月11日11:07:25.000 [debug] circuit_remove_handled_ports():未处理端口443。   7月11日11:07:25.000 [info] circuit_predict_and_launch_new():拥有0个干净的圈子(内部为0个),需要另一个退出圈子。   7月11日11:07:26.000 [debug] circuit_remove_handled_ports():未处理端口443。   7月11日11:07:26.000 [info] circuit_predict_and_launch_new():拥有0个干净的圈子(内部为0个),需要另一个退出圈子。   还有很多...

我的草率配置看起来像这样:

REACTOR_THREADPOOL_MAXSIZE = 1000
CONCURRENT_REQUESTS = 1000
CONCURRENT_REQUESTS_PER_DOMAIN = 10
DOWNLOAD_DELAY = 1

每发送1000个请求,我也会向NEW Tor发送NEWNYM信号。

我怎样才能同时使许多蜘蛛在Tor上工作?

0 个答案:

没有答案