在我的robots.txt文件中,我有以下一行
用户代理:Googlebot-Mobile 不允许:/
用户代理:Googlebot会 不允许:/
站点地图:http://mydomain.com/sitemapindex.xml
我知道如果我放前4行,googlebot就不会为网站编制索引,但如果我把最后一行 Sitemap:http://mydomain.com/sitemapindex.xml ,那么googlebot将能够索引网站?
谢谢,
答案 0 :(得分:4)
我针对自己的域(每个页面都有一个站点地图条目)测试了您的robots.txt,Googlebot和Googlebot-Mobile返回了他们被禁止访问的权限。
基于此 - 我想说robots.txt文件优先于任何站点地图。
另外,从逻辑上讲 - 如果您阻止整个域,则不允许机器人访问站点地图。站点地图条目只是告诉抓取工具在哪里可以找到您的站点地图 - 而不是他们访问站点地图的权限。
即使您允许站点地图,我也不认为机器人会抓取您的网站 - 站点地图的设计更多是为了告诉机器人抓取您网站的频率,而不是他们允许抓取的内容。
答案 1 :(得分:2)
不,我不认为谷歌会这样做。它实际上是一个好机器人和坏机器人的问题。即使您添加了robots.txt文件来限制某些区域,Bots仍然可以抓取。它实际上是一个是或否的问题.robots.txt就像一个警告板而不是安全墙。
答案 2 :(得分:1)
googlebot甚至无法触及sitemapindex.xml
您可以使用Google网站管理员工具robots.txt验证工具对其进行测试,并以googlebot(在实验室部分中)获取功能。