使用Puppeteer和无头Chrome获取DOM节点文本

时间:2017-09-13 16:50:18

标签: node.js google-chrome-headless puppeteer

我正在尝试使用无头Chrome和Puppeteer来运行我们的Javascript测试,但我无法从页面中提取结果。根据{{​​3}},我看起来应该使用this answer。该部分甚至有一个看起来像我需要的例子。

const bodyHandle = await page.$('body');
const html = await page.evaluate(body => body.innerHTML, bodyHandle);
await bodyHandle.dispose();

作为一个完整的例子,我尝试将其转换为一个脚本,该脚本将从Stack Overflow上的用户配置文件中提取我的名字。我们的项目正在使用节点6,因此我将await表达式转换为使用.then()

const puppeteer = require('puppeteer');

puppeteer.launch().then(function(browser) {
    browser.newPage().then(function(page) {
        page.goto('https://stackoverflow.com/users/4794').then(function() {
            page.$('h2.user-card-name').then(function(heading_handle) {
                page.evaluate(function(heading) {
                    return heading.innerText;
                }, heading_handle).then(function(result) {
                    console.info(result);
                    browser.close();
                }, function(error) {
                    console.error(error);
                    browser.close();
                });
            });
        });
    });
});

当我运行时,我收到此错误:

$ node get_user.js 
TypeError: Converting circular structure to JSON
    at Object.stringify (native)
    at args.map.x (/mnt/data/don/git/Kive/node_modules/puppeteer/node6/helper.js:30:43)
    at Array.map (native)
    at Function.evaluationString (/mnt/data/don/git/Kive/node_modules/puppeteer/node6/helper.js:30:29)
    at Frame.<anonymous> (/mnt/data/don/git/Kive/node_modules/puppeteer/node6/FrameManager.js:376:31)
    at next (native)
    at step (/mnt/data/don/git/Kive/node_modules/puppeteer/node6/FrameManager.js:355:24)
    at Promise (/mnt/data/don/git/Kive/node_modules/puppeteer/node6/FrameManager.js:373:12)
    at fn (/mnt/data/don/git/Kive/node_modules/puppeteer/node6/FrameManager.js:351:10)
    at Frame._rawEvaluate (/mnt/data/don/git/Kive/node_modules/puppeteer/node6/FrameManager.js:375:3)

问题似乎是将输入参数序列化为page.evaluate()。我可以传入字符串和数字,但不传递元素句柄。示例是错误的,还是Node 6的问题?如何提取DOM节点的文本?

4 个答案:

答案 0 :(得分:9)

我发现了这个问题的三个解决方案,具体取决于你的提取有多复杂。最简单的选项是我没有注意到的相关函数:page.evaluate()。它基本上完成了我想要做的事情:结合page.$()page.evaluate()。这是一个有效的例子:

const puppeteer = require('puppeteer');

puppeteer.launch().then(function(browser) {
    browser.newPage().then(function(page) {
        page.goto('https://stackoverflow.com/users/4794').then(function() {
            page.$eval('h2.user-card-name', function(heading) {
                return heading.innerText;
            }).then(function(result) {
                console.info(result);
                browser.close();
            });
        });
    });
});

这给了我预期的结果:

$ node get_user.js 
Don Kirkby top 2% overall

我想提取更复杂的东西,但我终于意识到评估函数在页面的上下文中运行。这意味着您可以使用页面中加载的任何工具,然后只来回发送字符串和数字。在这个例子中,我在字符串中使用jQuery来提取我想要的东西:

const puppeteer = require('puppeteer');

puppeteer.launch().then(function(browser) {
    browser.newPage().then(function(page) {
        page.goto('https://stackoverflow.com/users/4794').then(function() {
            page.evaluate("$('h2.user-card-name').text()").then(function(result) {
                console.info(result);
                browser.close();
            });
        });
    });
});

这给了我一个完整的空白的结果:

$ node get_user.js 

                            Don Kirkby

                                top 2% overall

在我的真实脚本中,我想提取几个节点的文本,所以我需要一个函数而不是一个简单的字符串:

const puppeteer = require('puppeteer');

puppeteer.launch().then(function(browser) {
    browser.newPage().then(function(page) {
        page.goto('https://stackoverflow.com/users/4794').then(function() {
            page.evaluate(function() {
                return $('h2.user-card-name').text();
            }).then(function(result) {
                console.info(result);
                browser.close();
            });
        });
    });
});

这给出了完全相同的结果。现在我需要添加错误处理,并可能减少缩进级别。

答案 1 :(得分:3)

使用await/async$eval,语法如下所示:

await page.goto('https://stackoverflow.com/users/4794')
const nameElement = await context.page.$eval('h2.user-card-name', el => el.text())
console.log(nameElement)

答案 2 :(得分:1)

我使用以下方法取得了成功:

const browser = await puppeteer.launch();
try {
  const page = await browser.newPage();
  await page.goto(url);
  await page.waitFor(2000);
  let html_content = await page.evaluate(el => el.innerHTML, await page.$('.element-class-name'));
  console.log(html_content);
} catch (err) {
  console.log(err);
}

希望它有所帮助。

答案 3 :(得分:1)

我使用page。$ eval

const text = await page.$eval('h2.user-card-name', el => el.innerText );
console.log(text);