Question

我目前正在尝试编写一个接收用户输入的函数，并根据训练数据中出现的单词次数返回用户评论可能属于的顶级subreddit。我有一个包含不同subreddit中单词频率的数据库，我正在为每个subreddit和用户输入中的每个单词发出GET请求。

这增加了许多get请求，因为我的数据库中有超过7000个subreddits。我目前正在发出请求 - 承诺（浅）请求以获取所有subreddits的列表。然后，对于每个subreddit，我遍历用户输入中的每个单词，创建另一个请求 - 承诺对象并将其添加到promises数组中。

一旦添加了所有请求 - 承诺对象，我就等到它们全部使用Promise.all解析，然后我尝试打印出给定subreddit的字频率数组，但是我得到一个'错误：连接EMFILE'消息。

根据关于堆栈溢出的另一篇文章，这意味着我打开了太多套接字，但我对如何发生这种情况感到困惑。根据我的理解，它不会一次只能打开user_words.length可能的连接，因为这些是在Promise.all等待解决时正在完成的请求吗？我不知道连接是如何关闭的。

提前感谢您的帮助！

function getBestSubreddit(messageText) {
  var user_words = parse_message(messageText);
  var top_subreddit = "";
  var top_score = Number.MIN_SAFE_INTEGER;
  rp(dbUrl + '/.json?shallow=true').then(function(res) {
    res = JSON.parse(res);
    for (var subreddit in res) {
      if (res.hasOwnProperty(subreddit)) {
        var score = 0.0;
        var promises = []
        for (var i = 0; i < user_words.length; i++) {
          promises.push(rp(dbUrl + '/' + subreddit + '/word_freqs/' + user_words[i] + '.json'));
        }
        Promise.all(promises).then(function(values) {
          console.log(values);
        }, function(err) {
          console.log(err);
        });
      }
    }
  }).catch(function(err) {
    console.log(err);
  })
  return top_subreddit;
}

Answer 1

根据我的理解，它不会一次只能打开user_words.length可能的连接，因为那些是在Promise.all等待解决时正在完成的请求吗？我没有看到连接是如何关闭的。

不，这不正确。您有两个嵌套的for循环，因此您可以同时打开所有user_words.length * how many subreddits there are个循环。请记住，rp()和Promise.all()不会阻止，因此您可以运行嵌套的for循环，以便在处理任何响应之前启动每个连接。

看起来你也希望以某种方式同步返回代码行return top_subreddit的结果。你也做不到。您应该返回一个最终将解析为所需结果的承诺。

根据我的理解，它不会一次只能打开user_words.length可能的连接，因为那些是在Promise.all等待解决时正在完成的请求吗？我不知道连接是如何关闭的。

这不是对Promise.all()的正确理解。 Promise.all()没有阻止。在您的代码继续退出之前，它不会“等待”直到所有承诺都得到解决。它表现异步。您的代码将继续执行for循环的其他迭代，并且Promise.all()将来会在您通过它的所有承诺完成后调用.then()处理程序。 for循环的其他迭代继续运行并堆积更多套接字。

我认为解决这个问题的最简单方法是创建一个您想要处理的URL数组，然后使用其中一个已经内置了函数的异步库，以允许您运行最多N个异步操作在飞行中同时进行。由于您的代码是基于承诺的，我会选择Bluebird的Promise.map()来处理URL列表。

var Promise = require('bluebird');

function getBestSubreddit(messageText) {
  var user_words = parse_message(messageText);
  var top_subreddit = "";
  var top_score = Number.MIN_SAFE_INTEGER;
  return rp(dbUrl + '/.json?shallow=true').then(function(res) {
    res = JSON.parse(res);
    // build a list of URLs to process
    var urls = [];
    for (var subreddit in res) {
      if (res.hasOwnProperty(subreddit)) {
        for (var i = 0; i < user_words.length; i++) {
          urls.push(dbUrl + '/' + subreddit + '/word_freqs/' + user_words[i] + '.json');
        }
      }
    }
    // 
    return Promise.map(urls, function(url) {
        return rp(url);
    }, {concurrency: 20}).then(function(allResults) {
        // do any final processing of allResults here and return that value
        // to become the resolved result of the returned promise
    });
  }
}

getBestSubreddit(someText).then(function(result) {
    // process result here
}).catch(function(err) {
    // handle error here
});

在此示例中，我将并发请求数设置为20。您可以尝试将其更改为更高或更低的数字是否会提高吞吐量。理想的数量取决于许多因素，包括您的本地执行环境，您请求的数据量以及您拥有的带宽以及您发出请求的目标主机以及它如何处理同时请求。如果过快地提出太多请求，您可能还需要关注目标的速率限制。

其他一些相关答案：

How to make millions of parallel http requests from nodejs app?

In Node js. How many simultaneous requests can I send with the "request" package

Making a million requests

我仍然不清楚你的问题究竟是什么结果，但这里有一个收集所有可能数据的版本。您最终得到此格式{result: result, subreddit: subreddit, word: word}的一系列对象，其中result是您rp()对于给定的subreddit和给定单词的结果。然后，您可以根据需要整理该组结果：

var Promise = require('bluebird');

function getBestSubreddit(messageText) {
  var user_words = parse_message(messageText);
  var top_subreddit = "";
  var top_score = Number.MIN_SAFE_INTEGER;
  return rp(dbUrl + '/.json?shallow=true').then(function(res) {
    res = JSON.parse(res);
    // build a list of URLs to process
    var requestData = [];
    for (var subreddit in res) {
      if (res.hasOwnProperty(subreddit)) {
        for (var i = 0; i < user_words.length; i++) {
          requestData.push({url:dbUrl + '/' + subreddit + '/word_freqs/' + user_words[i] + '.json', subreddit: subreddit, word: user_words[i]});
        }
      }
    }
    // 
    return Promise.map(requestData, function(url) {
        return rp(requestData.url).then(function(result) {
            return {result: result, subreddit: requestData.subreddit, word: requestData.word};
        });
    }, {concurrency: 20}).then(function(allResults) {
        // now filter through all the data with appropriate subreddit
        // allResults is an array of objects of this form {result: result, subreddit: subreddit, word: word}
        // return whatever you want the final result to be after processing the allResults array
    });
  }
}

getBestSubreddit(someText).then(function(result) {
    // process result here
}).catch(function(err) {
    // handle error here
});

Answer 2

问题来自两个嵌套循环和无节制rp()调用，导致许多同时发出的请求。

节流通常通过以下方式实现：

通过构建then()链进行序列化，例如通过缩小数组。
执行＆＃34;并发＆＃34;限制，使用例如Bluebird的Promise.map()及其concurrency选项。

我想对于这个特定问题必须有很多方法，但基本上是：

汇集所有请求并按并发进行限制（jFriend00＆＃39;答案），
允许一个循环保持同步，并使用序列化或并发来限制另一个循环，
在序列化中嵌套序列化，
在并发中嵌套并发，
采用序列化和并发的混合方法。

这是一种混合方法，其中：

原始外部循环受序列化限制
原始的内部循环被Bluebird的并发映射限制。

function getSubreddits(messageText) {
    var user_words = parse_message(messageText);
    return rp(dbUrl + '/.json?shallow=true').then(function(res) {
        var subreddits = Object.keys(JSON.parse(res));
        return subreddits.reduce(function(p, subreddit) {
            return p.then(function() {
                return Promise.map(user_words, function(word) {
                    return rp(dbUrl + '/' + subreddit + '/word_freqs/' + word + '.json');
                }, {concurrency: 10}).then(function(freqs) {
                    // return an object that associates each subreddit with its results
                    return {
                        'subreddit': subreddit, // or maybe the object for which `subreddit` is the key?
                        'word_freqs': freqs
                    };
                });
            });
        }, Promise.resolve());
    });
}

缺点是你最终会有一个深深嵌套的眼睛，这并不会使自己变平。也就是说，大多数（如果不是全部）其他方法都是相似的。

无论您采用哪种方法，getBestSubreddit()现在都会调用getSubreddits()以及对结果进行一些后处理。

function getBestSubreddit(messageText) {
    return getSubreddits(messageText).then(function(results) {
        // Here `results` is an array of `{'subreddit', 'word_freqs'}` objects.
        // Loop through and calculate a score for each subreddit,
        // then use that score to determine the top subreddit,
        // and return it.
    }).catch(function(error) {
        console.log(error);
    });
}

请求 - 承诺导致太多套接字被打开

2 个答案: