我在使用Splash发出请求后尝试访问Cookie。 以下是我构建请求的方式。
script = """
function main(splash)
splash:init_cookies(splash.args.cookies)
assert(splash:go{
splash.args.url,
headers=splash.args.headers,
http_method=splash.args.http_method,
body=splash.args.body,
})
assert(splash:wait(0.5))
local entries = splash:history()
local last_response = entries[#entries].response
return {
url = splash:url(),
headers = last_response.headers,
http_status = last_response.status,
cookies = splash:get_cookies(),
html = splash:html(),
}
end
"""
req = SplashRequest(
url,
self.parse_page,
args={
'wait': 0.5,
'lua_source': script,
'endpoint': 'execute'
}
)
该脚本是Splash文档的精确副本。
所以我试图访问网页上设置的Cookie。当我没有使用Splash时,下面的代码按照我的预期运行,但在使用Splash时则不行。
self.logger.debug('Cookies: %s', response.headers.get('Set-Cookie'))
使用Splash时返回:
2017-01-03 12:12:37 [spider] DEBUG:Cookies:无
当我没有使用Splash时,此代码可以运行并返回网页提供的Cookie。
Splash的文档将此代码显示为示例:
def parse_result(self, response):
# here response.body contains result HTML;
# response.headers are filled with headers from last
# web page loaded to Splash;
# cookies from all responses and from JavaScript are collected
# and put into Set-Cookie response header, so that Scrapy
# can remember them.
我不确定我是否正确理解了这一点,但我说我应该能够以与不使用Splash时相同的方式访问Cookie。
中间件设置:
# Download middlewares
DOWNLOADER_MIDDLEWARES = {
# Use a random user agent on each request
'crawling.middlewares.RandomUserAgentDownloaderMiddleware': 400,
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
# Enable crawlera proxy
'scrapy_crawlera.CrawleraMiddleware': 600,
# Enable Splash to render javascript
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
所以我的问题是:如何在使用Splash请求时访问cookie?
答案 0 :(得分:3)
您可以设置SPLASH_COOKIES_DEBUG=True
选项以查看正在设置的所有Cookie。合并所有Cookie的当前cookiejar在response.cookiejar
配置正确时可以scrapy-splash
使用。
使用response.headers.get('Set-Header')
并不健全,因为在重定向的情况下(例如JS重定向)可能会有多个响应,并且可以在第一个响应中设置cookie,而脚本仅为最后一个响应返回标头。
我不确定这是否是您遇到的问题;代码不是Splash docs的精确副本。这里:
req = SplashRequest(
url,
self.parse_page,
args={
'wait': 0.5,
'lua_source': script
}
)
您正在向/render.json
终端发送请求;它不会执行Lua脚本;使用endpoint='execute'
来解决这个问题。