node.js - robots-parser npm软件包无法识别不允许的网址 - Thinbug

robots-parser npm软件包无法识别不允许的网址

时间：2018-08-20 13:32:18

标签： node.js web-scraping web-crawler robots.txt

来自搜寻器的以下函数对http://example.webscraping.com进行爬网，但是当其与“ http://example.webscraping.com/trap”一起使用时，它将返回True（请参见robots.txt，该网址不允许该网址）。为什么？

var robotsParser = require('robots-parser');
var robots = new robotsParser(baseURL + '/robots.txt', 'BadCrawler');

_urlObeysRobotsTxt(url) {
    if (robots.isAllowed(url, 'BadCrawler')) {
      return true;
    } else {
      return false;
    }
  }

0 个答案:

没有答案