Question

我在Node.js中运行一个脚本，该脚本使用request包来帮助我发出HTTP请求。该脚本可以生成100到1000个请求，以便下载PDF并将其放在本地计算机上的某个文件夹中。当我只发出100个请求时，程序运行正常，所有PDF都显示在我的文件夹中，但是当我发出更多请求时，程序开始抛出此错误（ENOTFOUND），并且抛出此错误的文件在文件夹中是空白的。当我加载手动抛出错误的链接时，它们工作正常（所以我知道这不是主机的问题）我可以下载这样的文件，但我想自动化它。

以下是给出错误的函数位。我已经开始尝试将所有给出错误的链接推送到一个数组，但是还没有运气来修复这个问题。

  var year = process.argv[3] % 2000;
  var url  = yearURL[year];

  request(url, function(error, response, html){
        if(!error){
              var $ = cheerio.load(html, {xmlMode: true});

              $('link', 'item').each(function(){
                    var link = $(this).text();
                    PDFscrape(link);
              });
        }
  });

  function PDFscrape(link){
        request(link, function(error, response, html){
              if(!error){
                    var $ = cheerio.load(html);

                    var num = $('#ctl00_ContentPlaceHolder1_lblFile2', '#ctl00_ContentPlaceHolder1_pageDetails').text();
                    console.log('Document ' + num + ' has been loaded.');
                    var i = 1;
                    $('a', '#ctl00_ContentPlaceHolder1_lblAttachments2').each(function(){
                          var pdf = 'https://phila.legistar.com/' + $(this).attr('href');
                          AddPDF(pdf, num, i);
                          i++;
                    });
              }
        })
  }

  function AddPDF(link, file, i){
        var name = file;
        var fileName;
        if (year !== 100 && year !== -2){
              fileName = fs.createWriteStream(__dirname + '/pdfs/20' + year + '/' + file + '_' + i + '.pdf');
        } else if (year === 100){
              fileName = fs.createWriteStream(__dirname + '/pdfs/recent100/' + file + '_' + i + '.pdf');            
        } else if (year === -2){
              fileName = fs.createWriteStream(__dirname + '/pdfs/recent10/' + file + '_' + i + '.pdf');                        
        }

        request({
              uri: link,
              headers: {
                    'Host': 'phila.legistar.com',
                    'User-Agent': 'request'
              }
        }, function(err) {
              if (err){
                    var errLink = {url: link, file: name, num: i}
                    var count = errors.push(errLink);
                    console.log('--------- Error: ' + count + ' ---------');
              }
        }).pipe(fileName);
  }

抛出的错误是：

  stream.js:94
        throw er; // Unhandled stream error in pipe.
        ^
  Error: getaddrinfo ENOTFOUND
        at errnoException (dns.js:37:11)
        at Object.onanswer [as oncomplete] (dns.js:124:16)

注意：我正在处理错误，但是出现此错误的文档在不应该的情况下作为空白传递。我无法弄清楚文件为什么会出错。

Answer 1

一些丢失的分号，使用!=而不是!==使用file，使用year的双重意义，但没有什么可以解释你所看到的内容。我猜测function AddPDF(link, filename, i) { var file; if (year !== 100 && year !== -2) { // probably want "!==" rather than "==" file = fs.createWriteStream(__dirname + '/' + file + '_' + i + '.pdf'); } else { // WHAT HAPPENS HERE? // what is "file", that is later piped to? // this may be your issue. // Where is this "year" coming from? Can you show relevant code? } request({ uri: link, headers: { 'Host': 'phila.legistar.com', 'User-Agent': 'request' } }, function(err) { var errLink, count; if (err) { errLink = {url: link, file: filename, num: i}; count = errors.push(errLink); console.log('--------- Error: ' + count + ' ---------'); } }).pipe(file); }有些不好。在此发布我的代码版本并附上一些评论。

（我在这里发帖而不是评论b / c不能在评论中发布长代码）：

{{1}}

最后，您仍然没有提供实际的跟踪。

Answer 2

你发布错误的好事......看起来你有什么是DNS错误。主机名查找有时会失败。

我建议您打印所有网址，而不是实际下载它们。如果它们看起来都很好，那么这是一个临时的DNS问题。如果您有本地/关闭DNS服务器，请检查其日志。否则，尝试将DNS更改为强大的功能，例如8.8.8.8（Google的DNS），仅用于测试。

如果失败，每次对于不同的URL，那么它就是本地机器中的东西。解决这个问题的一种方法是尝试/捕获这个并重新尝试有问题的URL。

从Node.js请求包中发出大量请求时出现“错误：ENOTFOUND”

2 个答案: