如何使用Puppeteer下载pdf

时间:2018-05-18 18:37:36

标签: node.js chromium puppeteer

我正在尝试使用Puppeteer进行一些网页抓取,但我不确定如何实际下载我找到的文档。具体来说,我想从this这样的页面下载pdf。我试图下载pdf的代码部分目前看起来像这样(注释行是下载尝试不起作用):

                const newPagePromise = new Promise(x => browser.once('targetcreated', target => x(target.page())));
                await page.click('#gvDocketResult_ctl0'+rows.length+'_hlDocumentRedacted');
                await page.waitFor(3000);
                const newPage = await newPagePromise;
                // need to figure out how to download
                await newPage._client.send('Page.setDownloadBehavior', {behavior: 'allow', downloadPath: '/Users/me/Desktop'});
                // await newPage.pdf({path: 'hn.pdf', format: 'letter'});
                // await newPage.click('#download');
                // await newPage.click('#icon');

很抱歉,如果这个问题看起来很简单,那我几天前就开始使用Puppeteer而且还有点迷失。如果有人知道我应该怎么做,我们将非常感激。

编辑:所以从我到目前为止所发现的情况来看,似乎我可以获得网页的src =''部分中显示的链接(下图),然后我就可以使用page.goto(链接)下载PDF格式?在任何情况下,我都不知道如何在木偶操作者中找到这个链接,所以如果有人对此提出建议,也会受到赞赏。 enter image description here

0 个答案:

没有答案