robots.txt内容/硒网站抓取

时间:2020-07-14 13:28:10

标签: robots.txt

我正在尝试使用硒运行网页抓取

robot.txt内容是什么意思?

User-Agent: *
Disallow: /go/
Disallow: /launch-announcement/

我可以在go和启动公告之外的所有文件夹中运行网络抓取吗?

2 个答案:

答案 0 :(得分:1)

什么是robots.txt文件?

Robots.txt是网站管理员创建的文本文件,用于指示网络机器人(通常是搜索引擎机器人)如何在其网站上抓取网页。 robots.txt文件是漫游器排除协议(REP)的一部分,该协议是一组网络标准,用于规范漫游器如何爬网,访问和索引内容以及将该内容提供给用户。 REP还包括诸如元机器人之类的指令,以及有关搜索引擎应如何对待链接的页面,子目录或站点范围的指令(例如“关注”或“ nofollow”)。

实际上,robots.txt文件指示某些用户代理(网络抓取软件)是否可以抓取网站的一部分。通过“禁止”或“允许”某些(或所有)用户代理的行为来指定这些爬网指令。 view more...

不允许:告诉机器人它不应访问站点上提到的页面。

我可以在go和启动公告之外的所有文件夹中运行Web抓取吗?

,您可以抓取除这两个页面以外的其他页面。

答案 1 :(得分:1)

根据basic robots.txt guide,该规则-

User-Agent: *
Disallow: /go/
Disallow: /launch-announcement/

对于所有用户代理,不允许抓取/go//launch-announcement/(及其子目录)。