我希望阻止将网页及其资源(图片)编入索引。
因此,如果我告诉抓取工具跳过该页面,但该页面仍然在sitemap.xml中注册,那么该页面上的所有信息都会被编入索引吗?
答案 0 :(得分:0)
robots.txt不允许crawling, not indexing。
如果您不允许在robots.txt中抓取网址,并且在网站地图中列出此网址,则仍然不允许抓取该网址。站点地图中的出现不会改变这一点。
此网址可能仍会被编入索引(无论是否在站点地图中)。
答案 1 :(得分:0)
只需添加到上一个答案,您就可以在robots.txt文件中使用 Noindex 指令。它不是标准AFAIK的一部分,但是常用,见blog - 尽管似乎对它有不同意见。或者,您可以在网页中使用the robots meta tags。
像往常一样,无法保证所有抓取工具都会尊重机器人指令,但主要指令却会如此。