from scrapy.spider import BaseSpider
class dmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
filename = response.url.split("/")[-2]
open(filename, 'wb').write(response.body)
然后我运行“scrapy crawl dmoz” 然后我收到了这个错误:
2013-09-14 13:20:56 + 0700 [dmoz] DEBUG:正在重试http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (失败1次):在非清洁中丢失了与另一侧的连接 方式。
有谁知道如何解决这个问题?
答案 0 :(得分:2)
您需要检查您的互联网连接,或者如果您正在使用代理,请设置您的环境变量以进行代理身份验证。
在Windows中,请尝试以下步骤:
name | value ------------+-------------------------------- HTTP_PROXY | http://username:password@host:port HTTPS_PROXY | https://username:password@host:port
替代方式:setting-proxy-env