`如何在scrapy中使用一系列回调

时间:2015-07-08 09:08:47

标签: python firefox selenium scrapy screen-scraping

我正在尝试使用scrapy和selenium webdriver构建一个爬虫。我正在尝试在parse()中获取一组网址并将其传递给回调函数parse_url(),该回调函数再次获取一组不同的网址并将其传递给parse_data()

parse_url的第一个回调有效但parse_data的第二回调有AssertionError

即如果我在没有parse_data的情况下运行,它会打印一个网址列表。但是,如果我包含它,我会得到一个断言错误

我有类似的东西

class mySpider(scrapy.Spider):
    name = "mySpider"
    allowed_domains = ["example.com"]
    start_urls = [
        "http://www.example.com/url",
    ]

    def parse(self, response):
        driver = webdriver.firefox()
    driver.get(response.url)
    urls = get_urls(driver.page_source) # get_url returns a list
        yield scrapy.Request(urls, callback=self.parse_url(urls, driver))

    def parse_url(self, url, driver):
        url_list = []
    for i in urls:
    driver.get(i)
    url_list.append( get_urls(driver.pagesource)) # gets some more urls 
    yeild scrapy.Request(urls, callback=self.parse_data(url_list, driver))

    def parse_data(self, url_list, driver):
        data = get_data(driver.pagesource)

这是追溯,

Traceback (most recent call last):
  File "/usr/local/lib/python2.7/dist-packages/scrapy/utils/defer.py", line 45, in mustbe_deferred
    result = f(*args, **kw)
  File "/usr/local/lib/python2.7/dist-packages/scrapy/core/spidermw.py", line 48, in process_spider_input
    return scrape_func(response, request, spider)
  File "/usr/local/lib/python2.7/dist-packages/scrapy/core/scraper.py", line 145, in call_spider
    dfd.addCallbacks(request.callback or spider.parse, request.errback)
  File "/usr/local/lib/python2.7/dist-packages/twisted/internet/defer.py", line 299, in addCallbacks
    assert callable(callback)
AssertionError

1 个答案:

答案 0 :(得分:0)

有两个问题:

  1. 您没有将您的功能传递给请求。您正在将函数的返回值传递给请求。

  2. Request的回调函数必须具有签名(self,response)。

  3. 动态内容的解决方案如下:https://stackoverflow.com/a/24373576/2368836

    它将消除将驱动程序传递给函数的需要。

    因此,当你提出要求时,应该是这样......

    scrapy.Request(urls, callback=self.parse_url)
    

    如果你真的想要用该函数包含驱动程序,请阅读有关闭包的内容。

    编辑:这是一个闭包解决方案,但我认为你应该使用我分享的链接,因为GHajba指出的原因。

       def parse_data(self, url_list, driver):
            def encapsulated(spider, response)
                data = get_data(driver.pagesource)
                .....
                .....
                yield item
        return encapsulated
    

    然后您的请求看起来像

    yield scrapy.request(url, callback=self.parse_data(url_list, driver)