我有这样的网址: /产品/:PRODUCT_ID /笔/新 /产品/:PRODUCT_ID /优惠/索引
我想在robots.txt文件中禁止使用“deals”文件夹。
[编辑] 我想禁止Google,Yahoo和Bing Bots使用此文件夹。有谁知道这些机器人是否支持通配符,所以会支持以下规则吗?
Disallow: /products/*/deals
另外......你对robots.txt规则有什么好的tuto吗?由于我没有找到一个“真正”好的,我可以使用一个......
最后一个问题: robots.txt是处理此问题的最佳方式吗?或者我应该更好地使用“noindex”元?
谢谢大家! :)
答案 0 :(得分:2)
是的,所有主要搜索引擎都支持基本通配符*
,您的解决方案将禁止您的交易目录。
了解robots.txt的最佳地点是Google Developer page。它提供了大量有效和无效的例子。例如,许多人不知道robots.txt文件是特定于协议的。因此,如果您要阻止https
连接上的网页,则需要确保https://yoursite.com/robots.txt
您还可以在通过Google Webmaster Tools应用新robots.txt文件之前对其进行测试。基本上,您可以在部署之前验证搜索引擎是否真的有效。
关于使用robots.txt阻止某些内容或者只是在页面中添加noindex,我更倾向于在大多数情况下使用noindex,除非我知道我不希望搜索引擎抓取我网站的那一部分一点都不。
有一些权衡。当您完全阻止搜索引擎时,您可以节省一些“抓取预算”。因此,搜索引擎会抓取其他页面,然后将“浪费”时间浪费在您不希望他们访问的页面上。但是,这些网址仍然可以显示在搜索结果中。
如果您绝对不希望任何搜索引荐流量到这些页面,最好使用noindex指令。此外,如果您经常链接到交易页面,则无索引不仅会将其从搜索结果中删除,而且任何链接值/ PageRank都可以流经这些页面并可以相应地进行计算。如果你阻止它们被抓取,它就像是一个黑洞。
答案 1 :(得分:0)
如果您不确定robots.txt中的语法是否正确,可以在https://www.google.com/webmasters上对其进行测试(以查看是否存在任何错误)。此外,您可以输入网页网址,工具会根据您的robots.txt告诉您是否应该阻止它。