使用node.js和PhantomJS提取动态内容

时间:2014-12-26 11:30:20

标签: javascript node.js phantomjs screen-scraping

我想用nodejs和phantomjs来控制web.log网页的内容。这是我的代码:

var phantom = require('phantom');

phantom.create(function(ph) {
    return ph.createPage(function(page) {
        return page.open("http://zehinz.com/test.html", function(status) {
            if (status === 'success') {
               //console.log the content of page with Javascript executed ???
            } else {
                console.log('some error');
                ph.exit();
            }
        });
    });
});

如何输出动态呈现的网页内容?

1 个答案:

答案 0 :(得分:0)

在简单的PhantomJS中,可以使用page.content,但由于您使用的是桥,因此必须在后台从PhantomJS进程中显式提取content属性。您可以使用page.get执行此操作。

在你的情况下,这是

page.get('content', function(content){
    console.log("Content", content);
    ph.exit();
});