有没有一种方法可以使用Java Web刮擦动态页面

时间:2018-08-08 01:14:41

标签: javascript web-scraping

所以我一直很难用Java抓取网页。我正在抓取的网页在1秒内使用Javascript动态加载数据,但是当我使用Cheerio和Request时,它只能获取源代码。

我想知道是否有一种方法可以使用JS抓取网站,或者是否需要默认使用Python?

P.S。

我已经尝试过Nightmare.js,但这似乎并不能满足我的要求。 我将“ rejectUnauthorized”设置为false,因为如果不存在该页面,则该页面将无法加载,并且该站点是受信任的。

代码:

var request = require("request");
var cheerio = require("cheerio");

var options = { uri: 'XXXXX',
                "rejectUnauthorized": false,
                json: true};

request(options, function(err, response, body){
    if(err){
        console.log(err);
    }
    if(!err && response.statusCode == 200){
        var $ = cheerio.load(body);
        console.log(response);
        var nameArr = [];
        $('a.href','.bgLightGreen.highlight.centered.nowrap').each(function(){
            ...
            ...
        })
   }
});

0 个答案:

没有答案