如何让抓取工具忽略我的免责声明

时间:2011-12-13 20:40:16

标签: asp.net web-crawler

我的网站上有一个免责声明,在会话中显示一次。 点击后,您将被允许进入某个部分,并且会在您的会话中记住它,这样它就不会再次给您带来麻烦。

问题是,我根本不希望抓取工具遇到免责声明。做的是忽略Googlebot用户代理。

但是我还希望他们忽略许多其他爬虫。

这是唯一的解决方案吗?通过其UA识别爬虫?如何检测cookie - 如果我没有cookie,它意味着它是一个爬虫?

由于

3 个答案:

答案 0 :(得分:1)

无论如何,您可能不想依赖cookie,因为用户可以在常规浏览器上禁用cookie。

将UA用于您的目的,只需获取大型爬虫,即刻更新。

答案 1 :(得分:0)

在您网站的根目录中创建一个名为robots.txt的文件。

在其中,把它放在:

User-agent: *
Allow: /
Disallow: /path/to/disclaimer

您可以找到有关robots.txt on the web的更多信息。

答案 2 :(得分:0)

您可以让抓取工具查看免责声明页面,但不要通过向页面添加“noindex”元标记来对其进行索引。这可能是您问题的部分解决方案。

<html>
    <head>
        <meta name="robots" content="noindex" />
        <title>Disclaimer</title>
    </head>
    <body>
        ...
    </body>
</html>

这样,抓取工具就可以访问免责声明背后的网页,但实际上它们不会根据免责声明页面上的条款进行索引。