Question

目前我的robots.txt是以下

#Sitemaps
Sitemap: http://www.baopals.com.com/sitemap.xml

#Disallow select URLs
User-agent: *
Disallow: /admin/
Disallow: /products/

我的产品有很多重复的内容，因为我从taobao.com提取数据并自动翻译，导致大量重复和低质量的名称，这就是为什么我只是不允许整个事情。但是，我手动更改某些产品的标题并将它们重新保存到数据库并在主页上展示它们并进行适当的翻译，它们仍然会保存回/products/，并且当我从主页上删除它们时会永远丢失。

我想知道是否有可能允许我保存到主页的产品更新的翻译仍然被谷歌索引或我被迫更改手动更新产品的目录？

Answer 1

某些机器人（包括Googlebot）支持Allow字段。这允许您指定应该允许爬行的路径。

因此，您必须为要抓取的每个产品添加Allow行。

User-agent: *
Disallow: /admin/
Disallow: /products/
Allow: /products/foo-bar-1
Allow: /products/foo-foo-2
Allow: /products/bar-foo

但是，您可能希望禁止索引，而不是禁止抓取产品页面。然后机器人仍然可以访问您的页面并关注链接，但它不会将页面添加到其搜索索引中。

将<meta name="robots" content="noindex" />添加到每个产品页面（在head中），然后将其删除（或将其更改为index），以便为要编制索引的每个产品页面添加。还有一个相应的HTTP标头，如果这对你来说更容易。

Robots.txt特定排除

1 个答案: