看起来有两种主流解决方案可用于指示抓取工具索引索引和不索引内容:添加X-Robot-Tag HTTP标头或指示robots.txt。
使用前者有什么好处吗?
答案 0 :(得分:3)
使用robots.txt
,您无法禁止索引文档。
他们有不同的目的:
robots.txt
可以禁止抓取(使用Disallow
)X-Robots-Tag
¹可以禁止编制索引(使用noindex
)(两者都提供了其他不同的功能,例如robots.txt
中的linking to your Sitemap,X-Robots-Tag
中的disallowing following links以及更多功能。)
抓取表示访问该文档。 索引意味着在索引中提供指向文档的链接(以及可能来自或关于元数据的元数据)。在典型的情况下,机器人在抓取文档后对文档进行索引,但这不是必需的。
不允许抓取文档的机器人仍然可以将其编入索引(无需访问它)。不允许索引文档的机器人仍可以对其进行爬网。 You can’t disallow both
¹请注意,标题名为X-Robots-Tag
,而不是X-Robot-Tag
。顺便说一句,元数据名称robots
(对于HTML meta
元素)是HTTP标头的替代。