标签: r web-scraping robots.txt rvest
我正在使用rvest来抓取一些网页,我知道我应该始终查看该网站的robots.txt文件,以了解我是否可以抓取它。问题是很多网站' robots.txt文件(例如Wikipedia's)列出了许多不同的机器人名称。
我是网络剪贴画的新手,那么rvest的机器人名称是什么?如何知道它是否被允许?显然,如果该网站说
User-Agent: * Disallow: /
然后我知道所有的机器人都被禁止刮擦,但是什么时候特定的机器人被命名了?