与另一方的连接以非干净的方式丢失

时间:2013-09-14 06:46:25

标签: python scrapy

from scrapy.spider import BaseSpider

class dmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        filename = response.url.split("/")[-2]
        open(filename, 'wb').write(response.body)

然后我运行“scrapy crawl dmoz” 然后我收到了这个错误:

  

2013-09-14 13:20:56 + 0700 [dmoz] DEBUG:正在重试http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/>   (失败1次):在非清洁中丢失了与另一侧的连接   方式。

有谁知道如何解决这个问题?

1 个答案:

答案 0 :(得分:2)

您需要检查您的互联网连接,或者如果您正在使用代理,请设置您的环境变量以进行代理身份验证。

在Windows中,请尝试以下步骤:

  1. + R 输入'systempropertiesadvanced'(没有 引号)
  2. 点击“环境变量...”按钮
  3. 添加2个新变量(用户/系统变量很好):
  4. name        | value
    ------------+--------------------------------  
    HTTP_PROXY  | http://username:password@host:port 
    HTTPS_PROXY | https://username:password@host:port
    

    替代方式:setting-proxy-env