Scrapy蜘蛛在几分钟后返回200响应

时间:2017-02-23 18:41:20

标签: scrapy scrapy-spider splash

我在尝试废弃网站时遇到动态内容问题。我刚用Docker使用以下内容将Splash添加到我的Scrapy中:

https://blog.scrapinghub.com/2015/03/02/handling-javascript-in-scrapy-with-splash/

不幸的是,由于动态内容(可能是?),我仍然没有捕获内容。

我的代码运行,捕获内容,然后在刮掉大约4000页后,它只会在接下来的6000页中返回此错误,其中大部分都有数据:

[scrapy.core.engine] DEBUG: Crawled (200) <GET http://www...> (referer: None)

这是我的蜘蛛代码:

import scrapy
from scrapy_splash import SplashRequest

class PeopleSpider(scrapy.Spider):
 name="people"
 start_urls=[
  'http://www.canada411.ca/res/%s/' % page for page in xrange(5192080000,5192090000)   
 ]
 def start_requests(self):
  for url in self.start_urls:
    yield SplashRequest(url, self.parse,
     endpoint='render.html',
     args={'wait': 2},
    )
 def parse(self,response):
  for people in response.css('div#contact'):
   yield{
    'name': people.css('h1.vcard__name::text').extract_first().strip().title(),
    'address': people.css('div.vcard__address::text').extract_first().strip().split(',')[0].strip(),
    'city': people.css('div.vcard__address::text').extract_first().strip().split(',')[1].strip().split(' ')[0].strip(),
    'province': people.css('div.vcard__address::text').extract_first().strip().split(',')[1].strip().split(' ')[1].strip(),
    'postal code': people.css('div.vcard__address::text').extract_first().split(',')[2].strip().replace(' ',''),
    'phone': people.css('span.vcard__label::text').extract_first().replace('(','').replace(')','').replace('-','').replace(' ',''),
   }

enter image description here

1 个答案:

答案 0 :(得分:2)

当您没有获取数据时,将响应的HTML保存在文件中,然后在浏览器中打开该HTML文件,以查看该页面上不存在addressdont_filter=True等的原因。

由于来自同一IP的连续请求,我怀疑他们正在显示验证码。

如果他们正在显示验证码,您可以使用代理服务来避免验证码,

同时创建DownloadMiddlewareprocess_request内部功能,检查是否有验证码,然后再次使用with open('response.html', '2+') as the_file: the_file.write(response.body) 参数抓取该链接。

修改

您可以使用此代码写入文件,BTW只是谷歌,您会发现使用Python写入文件的一堆方法。

C:\agent\externals\git\cmd\git.exe config --global http.sslVerify false