我的网站上有一个免责声明,在会话中显示一次。 点击后,您将被允许进入某个部分,并且会在您的会话中记住它,这样它就不会再次给您带来麻烦。
问题是,我根本不希望抓取工具遇到免责声明。做的是忽略Googlebot用户代理。
但是我还希望他们忽略许多其他爬虫。
这是唯一的解决方案吗?通过其UA识别爬虫?如何检测cookie - 如果我没有cookie,它意味着它是一个爬虫?
由于
答案 0 :(得分:1)
无论如何,您可能不想依赖cookie,因为用户可以在常规浏览器上禁用cookie。
将UA用于您的目的,只需获取大型爬虫,即刻更新。
答案 1 :(得分:0)
在您网站的根目录中创建一个名为robots.txt的文件。
在其中,把它放在:
User-agent: *
Allow: /
Disallow: /path/to/disclaimer
您可以找到有关robots.txt on the web的更多信息。
答案 2 :(得分:0)
您可以让抓取工具查看免责声明页面,但不要通过向页面添加“noindex”元标记来对其进行索引。这可能是您问题的部分解决方案。
<html>
<head>
<meta name="robots" content="noindex" />
<title>Disclaimer</title>
</head>
<body>
...
</body>
</html>
这样,抓取工具就可以访问免责声明背后的网页,但实际上它们不会根据免责声明页面上的条款进行索引。