我正在进行分析,我得到的结果很多,主要是因为社交媒体机器人或其他随机机器人如Twitter的BufferBot,DataMinr等。
是否有可用的所有已知机器人的Web API /数据库,我可以用它来检查它是机器人还是人类?
或者有没有什么好方法可以阻止这类机器人,以免影响分析统计数据?
答案 0 :(得分:1)
您可以链接到robots.txt阻止的隐藏页面。访问时,捕获机器人的用户代理和IP地址,然后将其中一个或两个附加到.htaccess文件,该文件永久阻止它们。它只捕获坏机器人并且是自动化的,因此您无需做任何事情来维护它。
请确保先设置robots.txt文件,然后让好机器人有机会阅读并相应地更新他们的抓取。
答案 1 :(得分:0)
在您的路线中创建一个名为robots.txt
的文件,并添加以下行:
User-agent: *
Disallow: /
答案 2 :(得分:0)
没有办法彻底阻止所有机器人,这将是一个疯狂的时间花费,你可以使用.htaccess文件或robots.txt,停止谷歌索引网站很容易但阻止机器人流量可能会变得复杂像一个纸牌屋 我建议使用此抓取工具/网络机器人列表http://www.robotstxt.org/db.html