如何使用robots.txt排除抓取工具以将我网站的某些网页编入索引?

时间:2017-08-25 09:55:03

标签: robots.txt

我在我的根robots.txt上尝试了这个:

User-agent:  *
Allow: /
Disallow: /*&action=surprise

Sitemap: https://example.com/sitemap.php

我想从抓取网址中排除:

https://example.com/track&id=13&action=surprise&autoplay

access.log文件中我再次看到一些机器人击中这些网址。

我做错了什么或只是因为某些机器人没有关注我的robots.txt设置?

1 个答案:

答案 0 :(得分:-1)

我必须说,并非所有机器人都会遵守规则并遵循您的robtos.txt。 你需要添加一些反爬虫技术来禁止访问... 如:

  1. 检查用户代理
  2. 计算螺栓的数量