我的robots.txt如下:
User-agent: *
Disallow: /user/*
Disallow: /invitations/*
Disallow: /api/*
#Adsense crawler
User-agent: Mediapartners-Google
Disallow:
是否真的允许“ Mediapartners-Google”搜寻器扫描所有页面?
否则,即使文件末尾有以下几行,我的robots.txt User-agent: *
的第一行也将阻止所有爬网程序(包括“ Mediapartners-Google”)访问上述根目录。
User-agent: Mediapartners-Google
Disallow:
换句话说,就像我的情况一样,robots.txt中的规则顺序是否重要?
答案 0 :(得分:1)
顺序并不重要,您可以使用“机器人”部分中的Search Console对其进行测试。 更改顺序并测试几页,看看有什么奇怪的地方。
答案 1 :(得分:0)
似乎我找到了答案。 答案是-顺序无关紧要,因为:
在具有多个用户代理指令的robots.txt文件中,每个 禁止或允许规则仅适用于中指定的用户代理 该特定的行分隔符集。如果文件包含规则 如果适用于多个用户代理,则抓取工具只会支付 注意(并遵循其中的最具体指示) 说明。