Scrapy请求返回notImplementedError

时间:2016-01-04 21:20:43

标签: python request scrapy

我的scrapy代码不起作用,我不知道! 我想抓住Ikea网站,我首先设计了一个CrawlSpider,它不够具体,无法检索网页的每个链接。所以我设计了一个带有yield请求方法的基本Spider。

这是我的代码:

class IkeaSpider(scrapy.Spider) :        
    name = "Ikea"
    allower_domains = ["http://www.ikea.com/"]
    start_urls = ["http://www.ikea.com/fr/fr/catalog/productsaz/8/"]



    def parse_url(self, response):

        for sel in response.xpath('//div[@id="productsAzLeft"]'):

            base_url = 'http://www.ikea.com/'
            follow_url = sel.xpath('//span[@class="productsAzLink"]/@href').extract()
            complete_url = urlparse.urljoin(base_url, follow_url)
            request = Request(complete_url, callback = self.parse_page)

            yield request


    def parse_page(self, response):

以下是错误日志:

2016-01-04 22:06:31 [scrapy] ERROR: Spider error processing <GET http://www.ikea.com/fr/fr/catalog/productsaz/8/> (referer: None)
Traceback (most recent call last):
  File "/usr/local/lib/python2.7/dist-packages/twisted/internet/defer.py", line 588, in _runCallbacks
    current.result = callback(current.result, *args, **kw)
  File "/usr/local/lib/python2.7/dist-packages/scrapy/spiders/__init__.py", line 76, in parse
    raise NotImplementedError
NotImplementedError

2 个答案:

答案 0 :(得分:6)

您的蜘蛛需要parse方法,这是所有初始请求的默认回调。您可以将parse_url方法重命名为parse,它可以正常工作。

class IkeaSpider(scrapy.Spider) :

    name = "Ikea"
    allower_domains = ["http://www.ikea.com/"]
    start_urls = ["http://www.ikea.com/fr/fr/catalog/productsaz/8/"]


    def parse(self, response):

        for sel in response.xpath('//div[@id="productsAzLeft"]'):

            base_url = 'http://www.ikea.com/'
            follow_url = sel.xpath('//span[@class="productsAzLink"]/@href').extract()
            complete_url = urlparse.urljoin(base_url, follow_url)
            request = Request(complete_url, callback = self.parse_page)

            yield request

替代

您还可以使用定义的start_requests参数手动定义scrapy.Requests方法并生成callback,就像您在此处所做的那样。

答案 1 :(得分:2)

如果您只想使用蜘蛛中的parse,则必须实施start_urls方法,因为您可以查看here

parse方法是start_urls内网址发出的请求的默认回调。

如果您想从一开始就控制请求,您还可以使用start_requests方法。