在javascript加载了值之后,Nodejs抓取网站

时间:2012-02-21 08:36:41

标签: jquery node.js web-scraping jsdom

可能是nodejs / jsdom上的新手问题

我正在尝试使用node.js抓取一个网站。我正在使用jsdom和jquery来获取html并解析所需的东西。但是,不知何故,我得到的价值不是网站上显示的价值。 基本上这些值是由javascript动态更改的,我想要这些值。我使用nodejs / jsdom进行抓取的全部原因是js将被执行并且我在该事件之后得到值。

有没有办法让jsdom等到javascript执行?或者我错了吗?我在这件事上搜索了很多。

3 个答案:

答案 0 :(得分:7)

你最好使用像casperjs http://casperjs.org/这样的东西。它是一个基于phantomjs的测试实用程序。它基本上就像在webkit浏览器中打开页面一样,没有GUI。你可以写点像。我不认为它适用于节点,但它应该很容易运行一个casper脚本并将输出管道传回节点。:

var casper = require('casper').create({
    loadImages: true,
    loadPlugins: true,
    verbose: true,
    //logLevel: 'info',
    clientScripts: [
        'jquery-1.7.1.min.js',
    ],
    viewportSize: {
        width: 1366,
        height: 768,
    },
    pageSettings: {
        javascriptEnabled: true,
        userAgent: 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5',
    },
});

casper.start(url);

casper.thenEvaluate(function () {
    //javascript code to run in the scope of the page
});

答案 1 :(得分:0)

我不知道你是否想要替代品,但是当我需要这种敏感的刮擦时,我只是将Firefox与iMacros一起使用。它运行所有浏览器JS就好了,因为它一个浏览器。

http://www.iopus.com/imacros/firefox/

答案 2 :(得分:0)

首先,你是如何使用jsdom的?显然,jsdom.env不会在DOM中执行脚本,只会在调用jsdom.env时添加脚本。如果您想执行脚本,我认为您应该使用jsdom.jsdom

其次,您需要指定一个onload处理程序。这应该在文档准备好之后执行,并且希望任何脚本都可以根据自己的喜好更改DOM。

这样的事情:

var jsdom = require('jsdom').jsdom
  , document = jsdom(html)
  , window = document.createWindow();

document.onload = function() {
  // Do your stuff
}