阻止机器人在多核多域prestashop上抓取我的一个站点

时间:2014-05-14 08:31:53

标签: .htaccess robots.txt prestashop-1.5

你好我有一个多域多域prestashop安装与主域example.com我想阻止所有机器人抓取子域网站subdomain.example.com为经销商,他们可以以较低的价格购买,因为内容是重复的原来的网站,我不是很确定如何做到这一点。 Usualy如果我想阻止我会使用的网站的机器人

User-agent: *
Disallow: /

但是如何使用它而不会伤害整个商店?是否有可能阻止机器人从htacces?

2 个答案:

答案 0 :(得分:1)

关于您的第一个问题: 如果您不希望搜索引擎访问子域(sub.example.com/robots.txt),则可以在子域上使用robots.txt文件。不要将它放在常规域上(example.com/robots.txt) - 请参阅Robots.txt reference guide

此外,我会在Google Search Console中验证这两个域。在那里,您可以监视和控制子域和主域的索引。

关于你的第二个问题: 我在这里找到了一个SO线程,解释了你想知道的内容:Block all bots/crawlers/spiders for a special directory with htaccess

答案 1 :(得分:0)

我们使用规范网址告诉搜索引擎在哪里找到原始内容。

https://yoast.com/rel-canonical/

  

规范网址允许您告诉搜索引擎某些类似的内容   URL实际上是同一个。有时你有产品或   可在多个URL下访问的内容,甚至可在多个URL上访问   网站。使用规范URL(带有属性的HTML链接标记)   rel = canonical)这些可以在不损害你的排名的情况下存在。