robots-parser npm软件包无法识别不允许的网址

时间:2018-08-20 13:32:18

标签: node.js web-scraping web-crawler robots.txt

来自搜寻器的以下函数对http://example.webscraping.com进行爬网,但是当其与“ http://example.webscraping.com/trap”一起使用时,它将返回True(请参见robots.txt,该网址不允许该网址)。为什么?

var robotsParser = require('robots-parser');
var robots = new robotsParser(baseURL + '/robots.txt', 'BadCrawler');

_urlObeysRobotsTxt(url) {
    if (robots.isAllowed(url, 'BadCrawler')) {
      return true;
    } else {
      return false;
    }
  }

0 个答案:

没有答案