Google中的重复内容。 Drupal的SEO

时间:2011-05-30 03:30:51

标签: drupal seo google-search

我有一个启动并运行的Drupal站点。该网站没有针对搜索引擎优化进行适当优化,并且由于/ category,/ taxonomy等在Google中生成了大量重复内容

结构是:

/ var / www / appname /这包含一个自定义构建的应用程序 / var / www / appname / drup这包含我的drupal安装

我在谷歌搜索网站:appname.com上浏览了网站结果,因为/ content,/ taxonomy,/ node等因为有很多重复的内容。

我的ROBOTS.txt ..在/ var / www / appname中已经有以下内容,但我很惊讶这些页面仍然被编入索引。请指教。

User-agent: *
Crawl-delay: 10

Allow: /
Allow: /drup/

# Directories
Disallow: /drup/includes/
Disallow: /drup/misc/
Disallow: /drup/modules/
Disallow: /drup/profiles/
Disallow: /drup/scripts/
Disallow: /drup/themes/
# Files
Disallow: /drup/CHANGELOG.txt
Disallow: /drup/cron.php
Disallow: /drup/INSTALL.mysql.txt
Disallow: /drup/INSTALL.pgsql.txt
Disallow: /drup/install.php
Disallow: /drup/INSTALL.txt
Disallow: /drup/LICENSE.txt
Disallow: /drup/MAINTAINERS.txt
Disallow: /drup/update.php
Disallow: /drup/UPGRADE.txt
Disallow: /drup/xmlrpc.php
# Paths (clean URLs)
Disallow: /drup/admin/
Disallow: /drup/comment/reply/
Disallow: /drup/contact/
Disallow: /drup/logout/
Disallow: /drup/node/add/
Disallow: /drup/search/
Disallow: /drup/user/register/
Disallow: /drup/user/password/
Disallow: /drup/user/login/
# Paths (no clean URLs)
Disallow: /drup/?q=admin/
Disallow: /drup/?q=comment/reply/
Disallow: /drup/?q=contact/
Disallow: /drup/?q=logout/
Disallow: /drup/?q=node/add/
Disallow: /drup/?q=search/
Disallow: /drup/?q=user/password/
Disallow: /drup/?q=user/register/
Disallow: /drup/?q=user/log 

5 个答案:

答案 0 :(得分:1)

您只需要一个XML站点地图,告诉Google所有网页的位置,而不是让Google自行抓取。

事实上,当Stackoverflow处于测试阶段时 - 他们试图让抓取工具发挥其魔力。但是,在高度动态的网站上,以这种方式获得足够的结果几乎是不可能的。

因此,使用XML站点地图,您可以告诉Google每个页面的位置以及优先级和更改频率。

答案 1 :(得分:1)

有几个模块可以处理搜索引擎优化和重复内容。 我首先建议安装并检查http://drupal.org/project/seo_checklist 对于重复的内容,您可以查看http://drupal.org/project/globalredirect

无论如何,/ taxonomy和/ content只是列表而不是禁止你可能想要用某种自定义内容覆盖他们的路径,让抓取者知道他们在看什么。

答案 2 :(得分:1)

Drupal中有很多模块用于搜索引擎优化。如果你想看到所有SEO模块的列表。请查看此link

答案 3 :(得分:0)

您可以禁止显示重复内容的目录。正如您所解释的那样,/ content,/ taxonomy,/ node显示重复的内容。

在robots.txt文件的“目录”部分添加以下代码,以限制搜索引擎对这些目录的访问。

禁止:/ drup / content / 禁止:/ drup / taxonomy / 禁止:/ drup / node /

答案 4 :(得分:0)

您是否有能力使用Google网站站长工具验证网站的所有权:

http://www.google.com/webmasters/tools

如果是这样,我建议您这样做,然后在该网站的“诊断”类别下尝试“抓取Googlebot”。如果您的robots.txt按预期工作,您的“获取状态”将指示“被robots.txt拒绝”。

索引页面可能会暂停一段时间,并在您更改robots.txt后显示在Google搜索结果中。但是Googlebot的抓取功能可以让您实时了解Googlebot敲门时发生的事情......

如果您想要索引的网址没有问题,那么您需要关注robots.txt的问题......它所在的位置,语法,路径列表等等。我总是建议人们在浏览器中(在他们网站的根目录下)手动检索它,以便对明显的傻瓜进行仔细检查。