当被拒绝的页面(机器人)仍在sitemap.xml中时会发生什么?

时间:2017-06-29 09:01:54

标签: seo web-crawler sitemap robots.txt sitemap.xml

我希望阻止将网页及其资源(图片)编入索引。

因此,如果我告诉抓取工具跳过该页面,但该页面仍然在sitemap.xml中注册,那么该页面上的所有信息都会被编入索引吗?

2 个答案:

答案 0 :(得分:0)

robots.txt不允许crawling, not indexing

如果您不允许在robots.txt中抓取网址,并且在网站地图中列出此网址,则仍然不允许抓取该网址。站点地图中的出现不会改变这一点。

此网址可能仍会被编入索引(无论是否在站点地图中)。

答案 1 :(得分:0)

只需添加到上一个答案,您就可以在robots.txt文件中使用 Noindex 指令。它不是标准AFAIK的一部分,但是常用,见blog - 尽管似乎对它有不同意见。或者,您可以在网页中使用the robots meta tags

像往常一样,无法保证所有抓取工具都会尊重机器人指令,但主要指令却会如此。