目前我正在研究scrapy,以下是我的spider.py代码
class Example(BaseSpider):
name = "example"
allowed_domains = {"http://www.example.com"}
start_urls = [
"https://www.example.com/rwjhamilton/index.cfm?&ijobcatid=100&ijobrowset=1&cjobattr1=All&template=dsp_job_list.cfm"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
href_tags = hxs.select('//font[@class="bannertext"]/u/a/@href').extract()
print href_tags,">>>>>>>>>>>>>>>>"
结果:
2012-07-19 17:32:20+0530 [example] ERROR: Error downloading <GET https://www.example.com/rwjhamilton/index.cfm?&ijobcatid=100&ijobrowset=1&cjobattr1=All&template=dsp_job_list.cfm>: [('SSL routines', 'SSL23_READ', 'ssl handshake failure')]
这个错误对scrapy来说似乎很新,我真的不知道如何解决这个问题,任何人都可以让我知道为什么会出现这个错误以及如何解决它。 实际上我正在尝试收集上面的网址中的href标签,似乎总共有40个href标签
有时响应正在下载,有时它正在显示
2012-07-19 17:39:15+0530 [example] DEBUG: Retrying <GET https://www.example.com/rwjhamilton/index.cfm?&ijobcatid=100&ijobrowset=1&cjobattr1=All&template=dsp_job_list.cfm> (failed 1 times): Connection to the other side was lost in a non-clean fashion
请让我知道如何解决这个问题。 在此先感谢.....
答案 0 :(得分:0)
答案 1 :(得分:-1)
我也遇到了这个错误:
2013-03-07 06:58:01+0800 [CrawlSpider] ERROR: Error downloading <GET a_website_url>: Connection to the other side was lost in a non-clean fashion.
我的scrapy版本是0.16.3。原因是它是我国的限制网站。