我现在正在项目中使用robots.txt
,sitemap.xml
和.htaccess
,如果我提交的话,我会访问我的sitemap.xml网址的错误Google网站管理员工具。
的robots.txt
User-Agent: *
Disallow:
sitemap.xml的
<url>
<loc>http://www.example.de/</loc>
<changefreq>daily</changefreq>
</url>
<url>
<loc>http://www.example.de/blog/article/</loc>
<changefreq>daily</changefreq>
</url>
<url>
<loc>http://www.exampe.de/blog/article/example-article</loc>
<changefreq>daily</changefreq>
</url>
的.htaccess
RewriteRule ^(.*)blog/article/$ $1article.php
RewriteRule ^(.*)blog/article/example-article$ $1blog/example-article.php
我的文件夹结构:
├───blog
│ └─── example-article.php
├─── sitemap.xml
├─── robots.txt
├─── .htaccess
├─── article.php
├─── ...
Google网站管理员工具说:
http://www.example.de/blog/article/
http://www.example.de/blog/article/example-article
被robots.txt阻止,由于我允许抓取所有内容,这是不可能的。
我的错误在哪里?
答案 0 :(得分:2)
使用: robots.txt
User-Agent: *
Disallow: /only_folder_name_you_disallow/
您无法使用Allow
另请注意,User-agent或Disallow行不支持globbing和正则表达式。 User-agent字段中的'*'是一个特殊值,意思是“任何机器人”。具体来说,您不能拥有“User-agent: bot ”,“Disallow:/ tmp / *”或“Disallow:* .gif”等行。 http://www.robotstxt.org/robotstxt.html