我正在尝试构建一个脚本,向我显示一个名为bot / spiders的IP列表。
我写了一个脚本,它将Apache的访问日志导入mysql数据库,所以我可以尝试使用php和mysql来管理它。
我注意到很多机器人都有定期的间隔,他们每2或3秒发出一次请求。有没有一种简单的方法来显示这些模式与查询或PHP脚本?或者,我认为,更难以识别这些机器人/蜘蛛的算法。
DB:
CREATE TABLE IF NOT EXISTS `access_log` (
`IP` varchar(16) NOT NULL,
`datetime` datetime NOT NULL,
`method` varchar(255) NOT NULL,
`status` varchar(255) NOT NULL,
`referrer` varchar(255) NOT NULL,
`agent` varchar(255) NOT NULL,
`site` smallint(6) NOT NULL
);
答案 0 :(得分:0)
官方机器人会识别自己。 http://www.robotstxt.org/db.html
上有一个列表对于非官方的,我猜你可以尝试寻找下面的一些内容:
这是我注意到的一些令人讨厌的ba * * * s的东西,它总是试图刮擦我的网站并发送垃圾邮件。其中一些可能需要组合才能过滤掉具有相同特征的实际请求。