rvest机器人的名字是什么? (即如何知道robots.txt上是否禁止它?)

时间:2017-12-05 20:49:21

标签: r web-scraping robots.txt rvest

我正在使用rvest来抓取一些网页,我知道我应该始终查看该网站的robots.txt文件,以了解我是否可以抓取它。问题是很多网站' robots.txt文件(例如Wikipedia's)列出了许多不同的机器人名称。

我是网络剪贴画的新手,那么rvest的机器人名称是什么?如何知道它是否被允许?显然,如果该网站说

User-Agent: *  
Disallow: /

然后我知道所有的机器人都被禁止刮擦,但是什么时候特定的机器人被命名了?

0 个答案:

没有答案