如何使用puppeteer在网页上查找所有资产?

时间:2018-04-07 00:52:55

标签: javascript node.js express web-scraping puppeteer

我想使用木偶操作员来搜索页面并返回所有可用资源,包括图像,pdf,任何可嵌入的内容等。

对于我们这里的目的,让我们简单地用图像滚动。 img标记有src属性但是通过CSS规则加载的图像呢?有没有办法看到加载的资产总数?

1 个答案:

答案 0 :(得分:2)

一种方法是listen on the event requestfinished

const browser = await puppeteer.launch();
const page = await browser.newPage();

page.on('requestfinished', (request) => {
    console.log(request.url())
});

await page.goto('http://www.wildesoft.net/');
await page.waitFor(5000);

await browser.close();

这会将所有收到的资源记录到控制台,例如

Screen grab of result