Scrapy按照所有链接获取状态

时间:2018-05-06 14:24:11

标签: python scrapy

我想关注网站的所有链接,并获取404,200等每个链接的状态。我试过这个:

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor

class someSpider(CrawlSpider):
  name = 'linkscrawl'
  item = []
  allowed_domains = ['mysite.com']
  start_urls = ['//mysite.com/']

  rules = (Rule (LinkExtractor(), callback="parse_obj", follow=True),
  )

  def parse_obj(self,response):
    item = response.url
    print(item)

我可以在控制台上看到没有状态代码的链接,如:

mysite.com/navbar.html
mysite.com/home
mysite.com/aboutus.html
mysite.com/services1.html
mysite.com/services3.html
mysite.com/services5.html

但如何保存在所有链接状态的文本文件中?

1 个答案:

答案 0 :(得分:4)

我解决了这个问题如下。希望这对任何需要的人都有帮助。

{{1}}