robots.txt如何在网址中不允许引擎抓取网址:“http:

时间:2010-09-10 14:39:55

标签: indexing web-crawler robots.txt

Disallow: /*“http:

是我一直在使用的 - 我的猜测是我可能需要以某种方式逃避引号。在Google网站管理员工具中,它甚至没有读取引号(它允许您查看robots.txt文件并在几个网址上进行测试)。

在Google网站站长工具上,它会显示robots.txt文件,但不包含此行的引号。

Disallow: /*http:

任何建议将不胜感激。

主要问题是脚本格式不正确,并且网站存在抓取错误:

http://www.domain.com/“http://www.domain.com/directory/directory/dir_ectory/dir_ectory/pagetitle"

是我们收到抓取错误的其中一个网页的示例。我的假设是修复robots.txt页面会阻止这些网页显示在网站站长工具中的抓取错误中。

0 个答案:

没有答案