Question

我正在使用robots.txt从蜘蛛中排除一些页面。

User-agent: * 
Disallow: /track.php

当我搜索到此页面的内容时，谷歌说：“由于此网站的robots.txt，因此无法获得此结果的说明 - 了解详情。”

这意味着robots.txt正在运行..但为什么蜘蛛仍能找到该页面的链接？我想没有链接到'track.php'页面...我应该如何设置robots.txt？（或类似.htaccess等等......？）

Answer 1

以下是发生的事情：

Googlebot在其他页面上看到了track.php的链接。我们将该页面称为“source.html”。
Googlebot尝试访问您的track.php文件。
您的robots.txt告诉Googlebot不要读取该文件。

因此Google知道source.html链接到track.php，但它不知道track.php包含的内容。你没告诉谷歌不要索引track.php;你告诉Googlebot不要读取里面的数据 track.php。

作为Google's documentation says：

虽然Google不会抓取或索引robots.txt阻止的网页内容，但如果我们在网络上的其他网页上找到这些网址，我们仍可能会将其编入索引。因此，页面的URL以及可能的其他公开信息（如网站链接中的锚文本或Open Directory Project（www.dmoz.org）中的标题）可以显示在Google搜索结果中。

你可以做很多事情。对于您自己的网页，您可以使用该文档中所述的x-robots-tag或noindex meta tag。这会阻止Googlebot在您的网页中找到链接时对网址编制索引。但是，如果您不控制的某个页面链接到该track.php文件，那么Google很可能将其编入索引。

为什么google发现robots.txt排除了一个页面？

1 个答案: