我使用node-fetch和cheerio来抓取comic website中的数据。我只是使用一个简单的代码来显示如下所示的正文html:
var fetch = require('node-fetch');
var cheerio = require('cheerio');
var url = 'http://readcomiconline.to';
function getComic() {
fetch(url)
.then(res => res.text())
.then(body => console.log(body));
}
getComic();
问题是这个页面使用了一个javascript代码,客户端需要在重定向到主页面之前等待5秒钟,所以在加载主页面之前我无法抓取任何内容。
如何跳过此时间并开始抓取页面中的数据。
谢谢。
答案 0 :(得分:2)
看起来你需要的不仅仅是这两个模块。
您尝试抓取的网站使用JS向/cdn-cgi/l/chk_jschl
发送验证并获取Cookie。您可以使用selenium或反转js。
此处有更多信息:Python web scraping : 503 Response with specific site (how come?)
答案 1 :(得分:0)