来自搜寻器的以下函数对http://example.webscraping.com进行爬网,但是当其与“ http://example.webscraping.com/trap”一起使用时,它将返回True(请参见robots.txt,该网址不允许该网址)。为什么?
var robotsParser = require('robots-parser');
var robots = new robotsParser(baseURL + '/robots.txt', 'BadCrawler');
_urlObeysRobotsTxt(url) {
if (robots.isAllowed(url, 'BadCrawler')) {
return true;
} else {
return false;
}
}