Question

我正在使用scrapy来抓取整个网站，但我的解析器永远不会被调用。我一直在看这个，做了一些改变，但它不起作用。也许它只需要一双新鲜的眼睛。这是我的代码：

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class FirstSpider(CrawlSpider):
    name = 'firstSpider'
    allowed_domains = ['http://example.com']
    start_urls = ['http://example.com']

    rules = (Rule(LinkExtractor(), callback='parse_page', follow=True),)

    def parse_page(self, response):
        print('made it to the parser...')

我没有在日志中看到任何错误。该请求从example.com获得200响应。过滤现场请求'www.iana.org'。

我在Ubuntu 16.04上使用python3。

提前感谢任何提示。

Answer 1

问题在于

allowed_domains = ['http://example.com']

它应该是域名而不是网址

allowed_domains = ['example.com']

为什么我的scrapy解析器没有被调用？

1 个答案: