使用htaccess正确重定向

时间:2016-03-23 14:26:38

标签: .htaccess mod-rewrite sitemap robots.txt google-crawlers

我现在正在项目中使用robots.txtsitemap.xml.htaccess,如果我提交的话,我会访问我的sitemap.xml网址的错误Google网站管理员工具。

的robots.txt

User-Agent: *
Disallow:

sitemap.xml的

<url>
  <loc>http://www.example.de/</loc>
  <changefreq>daily</changefreq>
</url>
<url>
  <loc>http://www.example.de/blog/article/</loc>
  <changefreq>daily</changefreq>
</url>
<url>
  <loc>http://www.exampe.de/blog/article/example-article</loc>
  <changefreq>daily</changefreq>
</url>

的.htaccess

RewriteRule ^(.*)blog/article/$ $1article.php
RewriteRule ^(.*)blog/article/example-article$ $1blog/example-article.php

我的文件夹结构:

├───blog
│   └─── example-article.php
├─── sitemap.xml
├─── robots.txt
├─── .htaccess
├─── article.php
├─── ...

Google网站管理员工具说:

http://www.example.de/blog/article/
http://www.example.de/blog/article/example-article

被robots.txt阻止,由于我允许抓取所有内容,这是不可能的。

我的错误在哪里?

1 个答案:

答案 0 :(得分:2)

使用: robots.txt

User-Agent: *
Disallow: /only_folder_name_you_disallow/

您无法使用Allow

另请注意,User-agent或Disallow行不支持globbing和正则表达式。 User-agent字段中的'*'是一个特殊值,意思是“任何机器人”。具体来说,您不能拥有“User-agent: bot ”,“Disallow:/ tmp / *”或“Disallow:* .gif”等行。 http://www.robotstxt.org/robotstxt.html