Question

我在我的根robots.txt上尝试了这个：

User-agent:  *
Allow: /
Disallow: /*&action=surprise

Sitemap: https://example.com/sitemap.php

我想从抓取网址中排除：

https://example.com/track&id=13&action=surprise&autoplay

从access.log文件中我再次看到一些机器人击中这些网址。

我做错了什么或只是因为某些机器人没有关注我的robots.txt设置？

Answer 1

我必须说，并非所有机器人都会遵守规则并遵循您的robtos.txt。你需要添加一些反爬虫技术来禁止访问... 如：