来自js点击事件的Scrapy splash下载文件

时间:2017-09-22 21:30:42

标签: web-scraping scrapy splash scrapinghub

我正在使用scrapy + splash插件,我有一个通过ajax触发下载事件的按钮,我需要获取下载的文件,但不知道如何。

我的lua脚本是这样的

    function main(splash)
        splash:init_cookies(splash.args.cookies)
        assert(splash:go{
            splash.args.url,
            headers=splash.args.headers,
            http_method=splash.args.http_method,
            body=splash.args.body,
        })
        assert(splash:wait(0.5))
                    local get_dimensions = splash:jsfunc([[
            function () {
                var rect = document.querySelector('a[aria-label="Download XML"]').getClientRects()[0];
                return {"x": rect.left, "y": rect.top}
            }
        ]])
        splash:set_viewport_full()
        splash:wait(0.1)
        local dimensions = get_dimensions()
        -- FIXME: button must be inside a viewport
        splash:mouse_click(dimensions.x, dimensions.y)
        splash:wait(0.1)
        return splash:html()
    end

我的蜘蛛请求对象:

    yield SplashFormRequest(self.urls['url'],
                            formdata=FormBuilder.build_form(response, some_object[0]),
                            callback=self.parse_cuenta,
                            cache_args=['lua_source'],
                            endpoint='execute',
                            args={'lua_source': self.script_click_xml})

提前致谢

1 个答案:

答案 0 :(得分:1)

我刚刚尝试使用SplashFormRequest,看起来它不适合你。相反,您可以使用python Requests发送相同的Ajax请求。

这是一个例子

data = {'__EVENTTARGET': 'main_0$body_0$lnkDownloadBio',
        '__EVENTARGUMENT': '',
        '__VIEWSTATE': viewstate,
        '__VIEWSTATEGENERATOR': viewstategen,
        '__EVENTVALIDATION': eventvalid,
        'search': '',
        'filters': '',
        'score': ''}

HEADERS = {
        'Content-Type':'application/x-www-form-urlencoded',
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36',
        'Accept': 'text / html, application / xhtml + xml, application / xml;q = 0.9, image / webp, image / apng, * / *;q = 0.8'
    }

data = urllib.urlencode(data)
r = requests.post(submit_url, data=data, allow_redirects=False, headers=HEADERS)
filename = 'name-%s.pdf' % item['first_name']
with open(filename, 'wb') as f:
    f.write(r.content)

请确保您发送的数据和标题正确无误。