Question

在Scrapy docs中，有以下示例说明如何在Scrapy中使用经过身份验证的会话：

class LoginSpider(BaseSpider):
    name = 'example.com'
    start_urls = ['http://www.example.com/users/login.php']

    def parse(self, response):
        return [FormRequest.from_response(response,
                    formdata={'username': 'john', 'password': 'secret'},
                    callback=self.after_login)]

    def after_login(self, response):
        # check login succeed before going on
        if "authentication failed" in response.body:
            self.log("Login failed", level=log.ERROR)
            return

        # continue scraping with authenticated session...

我的工作正常，而且很好。但我的问题是：你对continue scraping with authenticated session做了什么，正如他们在最后一行的评论中所说的那样？

Answer 1

在上面的代码中，用于身份验证的FormRequest将after_login函数设置为其回调。这意味着将调用after_login函数并将登录尝试获得的页面作为响应传递。

然后通过在页面中搜索特定字符串来检查您是否已成功登录，在本例中为"authentication failed"。如果它找到了，蜘蛛就会结束。

现在，一旦蜘蛛到目前为止，它知道它已成功通过身份验证，您可以开始生成新请求和/或抓取数据。所以，在这种情况下：

from scrapy.selector import HtmlXPathSelector
from scrapy.http import Request

# ...

def after_login(self, response):
    # check login succeed before going on
    if "authentication failed" in response.body:
        self.log("Login failed", level=log.ERROR)
        return
    # We've successfully authenticated, let's have some fun!
    else:
        return Request(url="http://www.example.com/tastypage/",
               callback=self.parse_tastypage)

def parse_tastypage(self, response):
    hxs = HtmlXPathSelector(response)
    yum = hxs.select('//img')

    # etc.

如果看一下here，就会有一个蜘蛛在抓取之前进行身份验证的示例。

在这种情况下，它处理parse函数中的内容（任何请求的默认回调）。

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    if hxs.select("//form[@id='UsernameLoginForm_LoginForm']"):
        return self.login(response)
    else:
        return self.get_section_links(response)

因此，每当发出请求时，都会检查响应是否存在登录表单。如果它存在，那么我们知道我们需要登录，所以我们调用相关函数，如果它不存在，我们调用负责从响应中抓取数据的函数。

我希望这很清楚，随时问你是否有任何其他问题！

修改

好的，所以你想做的不仅仅是产生一个请求并刮掉它。你想要关注链接。

要做到这一点，您需要做的就是从页面中删除相关链接，并使用这些URL生成请求。例如：

def parse_page(self, response): """ Scrape useful stuff from page, and spawn new requests """ hxs = HtmlXPathSelector(response) images = hxs.select('//img') # .. do something with them links = hxs.select('//a/@href') # Yield a new request for each link we found for link in links: yield Request(url=link, callback=self.parse_page)

正如您所看到的，它会对页面上的每个URL产生一个新请求，并且每个请求都将使用它们的响应调用此相同的函数，因此我们会进行一些递归式处理。

我上面写的只是一个例子。如果您想“抓取”页面，则应该查看CrawlSpider而不是手动操作。

将Scrapy与经过身份验证（登录）的用户会话一起使用

1 个答案: