我正在尝试使用Puppeteer进行一些网页抓取,但我不确定如何实际下载我找到的文档。具体来说,我想从this这样的页面下载pdf。我试图下载pdf的代码部分目前看起来像这样(注释行是下载尝试不起作用):
const newPagePromise = new Promise(x => browser.once('targetcreated', target => x(target.page())));
await page.click('#gvDocketResult_ctl0'+rows.length+'_hlDocumentRedacted');
await page.waitFor(3000);
const newPage = await newPagePromise;
// need to figure out how to download
await newPage._client.send('Page.setDownloadBehavior', {behavior: 'allow', downloadPath: '/Users/me/Desktop'});
// await newPage.pdf({path: 'hn.pdf', format: 'letter'});
// await newPage.click('#download');
// await newPage.click('#icon');
很抱歉,如果这个问题看起来很简单,那我几天前就开始使用Puppeteer而且还有点迷失。如果有人知道我应该怎么做,我们将非常感激。
编辑:所以从我到目前为止所发现的情况来看,似乎我可以获得网页的src =''部分中显示的链接(下图),然后我就可以使用page.goto(链接)下载PDF格式?在任何情况下,我都不知道如何在木偶操作者中找到这个链接,所以如果有人对此提出建议,也会受到赞赏。