Question

我的网站上有一个免责声明，在会话中显示一次。点击后，您将被允许进入某个部分，并且会在您的会话中记住它，这样它就不会再次给您带来麻烦。

问题是，我根本不希望抓取工具遇到免责声明。做的是忽略Googlebot用户代理。

但是我还希望他们忽略许多其他爬虫。

这是唯一的解决方案吗？通过其UA识别爬虫？如何检测cookie - 如果我没有cookie，它意味着它是一个爬虫？

由于

Answer 1

无论如何，您可能不想依赖cookie，因为用户可以在常规浏览器上禁用cookie。

将UA用于您的目的，只需获取大型爬虫，即刻更新。

Answer 2

在您网站的根目录中创建一个名为robots.txt的文件。

在其中，把它放在：

User-agent: *
Allow: /
Disallow: /path/to/disclaimer

您可以找到有关robots.txt on the web的更多信息。

Answer 3

您可以让抓取工具查看免责声明页面，但不要通过向页面添加“noindex”元标记来对其进行索引。这可能是您问题的部分解决方案。

<html>
    <head>
        <meta name="robots" content="noindex" />
        <title>Disclaimer</title>
    </head>
    <body>
        ...
    </body>
</html>

这样，抓取工具就可以访问免责声明背后的网页，但实际上它们不会根据免责声明页面上的条款进行索引。

如何让抓取工具忽略我的免责声明

3 个答案: