我在我的根robots.txt
上尝试了这个:
User-agent: *
Allow: /
Disallow: /*&action=surprise
Sitemap: https://example.com/sitemap.php
我想从抓取网址中排除:
https://example.com/track&id=13&action=surprise&autoplay
从access.log
文件中我再次看到一些机器人击中这些网址。
我做错了什么或只是因为某些机器人没有关注我的robots.txt
设置?
答案 0 :(得分:-1)
我必须说,并非所有机器人都会遵守规则并遵循您的robtos.txt。 你需要添加一些反爬虫技术来禁止访问... 如: