Question

我有一个启动并运行的Drupal站点。该网站没有针对搜索引擎优化进行适当优化，并且由于/ category，/ taxonomy等在Google中生成了大量重复内容

结构是：

/ var / www / appname /这包含一个自定义构建的应用程序 / var / www / appname / drup这包含我的drupal安装

我在谷歌搜索网站：appname.com上浏览了网站结果，因为/ content，/ taxonomy，/ node等因为有很多重复的内容。

我的ROBOTS.txt ..在/ var / www / appname中已经有以下内容，但我很惊讶这些页面仍然被编入索引。请指教。

User-agent: *
Crawl-delay: 10

Allow: /
Allow: /drup/

# Directories
Disallow: /drup/includes/
Disallow: /drup/misc/
Disallow: /drup/modules/
Disallow: /drup/profiles/
Disallow: /drup/scripts/
Disallow: /drup/themes/
# Files
Disallow: /drup/CHANGELOG.txt
Disallow: /drup/cron.php
Disallow: /drup/INSTALL.mysql.txt
Disallow: /drup/INSTALL.pgsql.txt
Disallow: /drup/install.php
Disallow: /drup/INSTALL.txt
Disallow: /drup/LICENSE.txt
Disallow: /drup/MAINTAINERS.txt
Disallow: /drup/update.php
Disallow: /drup/UPGRADE.txt
Disallow: /drup/xmlrpc.php
# Paths (clean URLs)
Disallow: /drup/admin/
Disallow: /drup/comment/reply/
Disallow: /drup/contact/
Disallow: /drup/logout/
Disallow: /drup/node/add/
Disallow: /drup/search/
Disallow: /drup/user/register/
Disallow: /drup/user/password/
Disallow: /drup/user/login/
# Paths (no clean URLs)
Disallow: /drup/?q=admin/
Disallow: /drup/?q=comment/reply/
Disallow: /drup/?q=contact/
Disallow: /drup/?q=logout/
Disallow: /drup/?q=node/add/
Disallow: /drup/?q=search/
Disallow: /drup/?q=user/password/
Disallow: /drup/?q=user/register/
Disallow: /drup/?q=user/log

Answer 1

您只需要一个XML站点地图，告诉Google所有网页的位置，而不是让Google自行抓取。

事实上，当Stackoverflow处于测试阶段时 - 他们试图让抓取工具发挥其魔力。但是，在高度动态的网站上，以这种方式获得足够的结果几乎是不可能的。

因此，使用XML站点地图，您可以告诉Google每个页面的位置以及优先级和更改频率。

Answer 2

有几个模块可以处理搜索引擎优化和重复内容。我首先建议安装并检查http://drupal.org/project/seo_checklist 对于重复的内容，您可以查看http://drupal.org/project/globalredirect

无论如何，/ taxonomy和/ content只是列表而不是禁止你可能想要用某种自定义内容覆盖他们的路径，让抓取者知道他们在看什么。

Answer 3

Drupal中有很多模块用于搜索引擎优化。如果你想看到所有SEO模块的列表。请查看此link。

Answer 4

您可以禁止显示重复内容的目录。正如您所解释的那样，/ content，/ taxonomy，/ node显示重复的内容。

在robots.txt文件的“目录”部分添加以下代码，以限制搜索引擎对这些目录的访问。

禁止：/ drup / content / 禁止：/ drup / taxonomy / 禁止：/ drup / node /

Answer 5

您是否有能力使用Google网站站长工具验证网站的所有权：

http://www.google.com/webmasters/tools

如果是这样，我建议您这样做，然后在该网站的“诊断”类别下尝试“抓取Googlebot”。如果您的robots.txt按预期工作，您的“获取状态”将指示“被robots.txt拒绝”。

索引页面可能会暂停一段时间，并在您更改robots.txt后显示在Google搜索结果中。但是Googlebot的抓取功能可以让您实时了解Googlebot敲门时发生的事情......

如果您想要索引的网址没有问题，那么您需要关注robots.txt的问题......它所在的位置，语法，路径列表等等。我总是建议人们在浏览器中（在他们网站的根目录下）手动检索它，以便对明显的傻瓜进行仔细检查。

Google中的重复内容。 Drupal的SEO

5 个答案: