我正在尝试使用硒运行网页抓取
robot.txt内容是什么意思?
User-Agent: *
Disallow: /go/
Disallow: /launch-announcement/
我可以在go和启动公告之外的所有文件夹中运行网络抓取吗?
答案 0 :(得分:1)
什么是robots.txt文件?
Robots.txt是网站管理员创建的文本文件,用于指示网络机器人(通常是搜索引擎机器人)如何在其网站上抓取网页。 robots.txt文件是漫游器排除协议(REP)的一部分,该协议是一组网络标准,用于规范漫游器如何爬网,访问和索引内容以及将该内容提供给用户。 REP还包括诸如元机器人之类的指令,以及有关搜索引擎应如何对待链接的页面,子目录或站点范围的指令(例如“关注”或“ nofollow”)。
实际上,robots.txt文件指示某些用户代理(网络抓取软件)是否可以抓取网站的一部分。通过“禁止”或“允许”某些(或所有)用户代理的行为来指定这些爬网指令。 view more...
不允许:告诉机器人它不应访问站点上提到的页面。
我可以在go和启动公告之外的所有文件夹中运行Web抓取吗?
是,您可以抓取除这两个页面以外的其他页面。
答案 1 :(得分:1)
根据basic robots.txt guide,该规则-
User-Agent: *
Disallow: /go/
Disallow: /launch-announcement/
对于所有用户代理,不允许抓取/go/
和/launch-announcement/
(及其子目录)。