Question

我已成功废弃单个帐户的数据。我想在一个网站上废弃多个帐户，多个帐户需要多次登录，我想要一种如何管理登录/注销的方式？

Answer 1

你可以在每个帐户会话中使用多个cookiejars并行刮取多个帐户，见＆＃34; cookiejar＆＃34;在http://doc.scrapy.org/en/latest/topics/downloader-middleware.html?highlight=cookiejar#std:reqmeta-cookiejar

请求元密钥

澄清：假设我们在settings.py中有一系列帐户：

MY_ACCOUNTS = [
    {'login': 'my_login_1', 'pwd': 'my_pwd_1'},
    {'login': 'my_login_2', 'pwd': 'my_pwd_2'},
]

这是登录页面的链接：http://example.com/login

在您的蜘蛛中创建start_requests函数，在此函数中我们可以在MY_ACCOUNTS数组上循环并登录到每个帐户：

def start_requests(self):
    requests = []

    for i, account in enumerate(self.crawler.settings['MY_ACCOUNTS']):
        request = FormRequest('http://example.com/login', 
            formdata={'form_login_name': account['login'], 'form_pwd_name': account['pwd']}, 
            callback=self.parse,
            dont_filter=True)

        request.meta['cookiejar'] = i
        requests.append(request)

    return requests

form_login_name和form_pwd_name分别是登录表单上的字段名称。

dont_filter=True用于忽略重复请求的过滤器，因为我们在此处发出POST请求以在同一页面上登录http://example.com/login

request.meta['cookiejar'] = i分隔每个会话的Cookie（登录），不要忘记在您的子请求中添加cookiejar标识符，假设您想在登录后将scrapy重定向到页面：

def parse(self, response): 
    """ make some manipulation here ... """

    yield Request(my_url, meta={'cookiejar': response.meta['cookiejar']}, callback = my_callback)

废弃多个帐户，即多个登录

1 个答案: