JavaScript范围/代码迭代不同步

时间:2014-11-26 05:28:56

标签: javascript parsing loops scope web-scraping

我正在尝试创建一个工具来从网页上抓取信息(是的,我有权限)。

到目前为止,我一直在使用带有请求和cheerio的Node.js来拉取页面,然后根据CSS选择器找到信息。我已经做了足够的调试,知道脚本肯定是从页面成功获取信息。

似乎正在发生的事情是,在循环之后执行的代码首先执行或者在调用之后执行得太快,并且请求无法完成。我不完全确定JS调用栈是如何工作的。

我的源代码如下所示:

var baseURL = 'http://www2.dailyfaceoff.com/teams/lines/';
var request = require('request'), 
    cheerio = require('cheerio'),
    urls = [],
    teams = [];


var teamPages = [13, 14, 15, 16, 17, 18, 19, 20, 21,
 21, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 
 35, 36, 37, 38, 39, 40, 41, 42]

 for(i in teamPages)
 {
    url = baseURL + teamPages[i];
    urls.push(url);
 }

 for(u in urls)
 {
    var team  = [];
    request(urls[u], function(err, resp, body)
      {
        if(!err && resp.statusCode == 200){
            var $ = cheerio.load(body);         
            var teamName = $('#newTitle').text();
            var players = [];
            $('#forwards td a img').each(function(){
                var name = $(this).attr("alt");
                players.push(name); });
            $('#defense td a img').each(function(){
                var name = $(this).attr("alt");
                players.push(name); });
            $('#goalie_list td a img').each(function(){
                var name = $(this).attr("alt");
                players.push(name); });
            //console.log(players);
            teams.push(players);    
        }
      });
 }
 console.log(teams);
 console.log('DONE');

1 个答案:

答案 0 :(得分:1)

看起来很奇怪,Node.js基于事件驱动的非阻塞模型。因此,在使用for等循环块进行异步调用时需要注意。尝试使用forEach并为其提供一个函数处理程序。此外,仅在确定已满足所有请求时才打印结果。以下代码可能会对您有所帮助,但它仍然不是100%正确/漂亮:

urls.forEach( function (url, index) {
  var team  = [];
  request(u, function(err, resp, body)
  {
     if(!err && resp.statusCode == 200){
        .
        .
        teams.push(players);

        // Print the teams when last response is done
        if ( index == urls.length - 1 )
          console.log(teams);
     }
  });
}