我正在尝试创建一个工具来从网页上抓取信息(是的,我有权限)。
到目前为止,我一直在使用带有请求和cheerio的Node.js来拉取页面,然后根据CSS选择器找到信息。我已经做了足够的调试,知道脚本肯定是从页面成功获取信息。
似乎正在发生的事情是,在循环之后执行的代码首先执行或者在调用之后执行得太快,并且请求无法完成。我不完全确定JS调用栈是如何工作的。
我的源代码如下所示:
var baseURL = 'http://www2.dailyfaceoff.com/teams/lines/';
var request = require('request'),
cheerio = require('cheerio'),
urls = [],
teams = [];
var teamPages = [13, 14, 15, 16, 17, 18, 19, 20, 21,
21, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
35, 36, 37, 38, 39, 40, 41, 42]
for(i in teamPages)
{
url = baseURL + teamPages[i];
urls.push(url);
}
for(u in urls)
{
var team = [];
request(urls[u], function(err, resp, body)
{
if(!err && resp.statusCode == 200){
var $ = cheerio.load(body);
var teamName = $('#newTitle').text();
var players = [];
$('#forwards td a img').each(function(){
var name = $(this).attr("alt");
players.push(name); });
$('#defense td a img').each(function(){
var name = $(this).attr("alt");
players.push(name); });
$('#goalie_list td a img').each(function(){
var name = $(this).attr("alt");
players.push(name); });
//console.log(players);
teams.push(players);
}
});
}
console.log(teams);
console.log('DONE');
答案 0 :(得分:1)
看起来很奇怪,Node.js基于事件驱动的非阻塞模型。因此,在使用for
等循环块进行异步调用时需要注意。尝试使用forEach
并为其提供一个函数处理程序。此外,仅在确定已满足所有请求时才打印结果。以下代码可能会对您有所帮助,但它仍然不是100%正确/漂亮:
urls.forEach( function (url, index) {
var team = [];
request(u, function(err, resp, body)
{
if(!err && resp.statusCode == 200){
.
.
teams.push(players);
// Print the teams when last response is done
if ( index == urls.length - 1 )
console.log(teams);
}
});
}