在模板引擎中呈现页面后获取页面的来源?

时间:2014-06-08 18:30:52

标签: javascript jquery python node.js screen-scraping

所以我在一个JS很重的网站上进行一些屏幕抓取。它使用客户端模板引擎呈现所有内容。我尝试使用jQuery并且在控制台中工作,但显然不是在服务器(Nodejs)上。

我查看了一些Python和Java的库,他们似乎能够处理我想要的东西,但我更喜欢与Node服务器一起使用的JS解决方案。

有没有办法在使用Node?渲染页面之后获取完整的页面源

3 个答案:

答案 0 :(得分:2)

我个人喜欢PhantomJSSelenium,这正是如此。

文档/示例应该可以开箱即用。

答案 1 :(得分:1)

如果你想使用nodejs模块,那么你可能对此感兴趣:

https://github.com/sgentle/phantomjs-node

或者这个:

https://github.com/alexscheelmeyer/node-phantom

答案 2 :(得分:1)

我使用jsdom进行屏幕抓取,代码就在这里......

var jsdom = require( 'jsdom' );
jsdom.env( {
url: <give_url_of_page_u_want_to_scarpe>,
scripts: [ "http://code.jquery.com/jquery.js" ],
done: function( error, window ) {
  var $ = window.$;

  // required page is loaded in $....
  //you can write any javascript or jquery code get what ever you want

}
} );