所以我一直很难用Java抓取网页。我正在抓取的网页在1秒内使用Javascript动态加载数据,但是当我使用Cheerio和Request时,它只能获取源代码。
我想知道是否有一种方法可以使用JS抓取网站,或者是否需要默认使用Python?
P.S。
我已经尝试过Nightmare.js,但这似乎并不能满足我的要求。 我将“ rejectUnauthorized”设置为false,因为如果不存在该页面,则该页面将无法加载,并且该站点是受信任的。
代码:
var request = require("request");
var cheerio = require("cheerio");
var options = { uri: 'XXXXX',
"rejectUnauthorized": false,
json: true};
request(options, function(err, response, body){
if(err){
console.log(err);
}
if(!err && response.statusCode == 200){
var $ = cheerio.load(body);
console.log(response);
var nameArr = [];
$('a.href','.bgLightGreen.highlight.centered.nowrap').each(function(){
...
...
})
}
});