Question

我正在尝试使用Puppeteer进行一些网页抓取，但我不确定如何实际下载我找到的文档。具体来说，我想从this这样的页面下载pdf。我试图下载pdf的代码部分目前看起来像这样（注释行是下载尝试不起作用）：

                const newPagePromise = new Promise(x => browser.once('targetcreated', target => x(target.page())));
                await page.click('#gvDocketResult_ctl0'+rows.length+'_hlDocumentRedacted');
                await page.waitFor(3000);
                const newPage = await newPagePromise;
                // need to figure out how to download
                await newPage._client.send('Page.setDownloadBehavior', {behavior: 'allow', downloadPath: '/Users/me/Desktop'});
                // await newPage.pdf({path: 'hn.pdf', format: 'letter'});
                // await newPage.click('#download');
                // await newPage.click('#icon');

很抱歉，如果这个问题看起来很简单，那我几天前就开始使用Puppeteer而且还有点迷失。如果有人知道我应该怎么做，我们将非常感激。

编辑：所以从我到目前为止所发现的情况来看，似乎我可以获得网页的src =''部分中显示的链接（下图），然后我就可以使用page.goto（链接）下载PDF格式？在任何情况下，我都不知道如何在木偶操作者中找到这个链接，所以如果有人对此提出建议，也会受到赞赏。

如何使用Puppeteer下载pdf

0 个答案: