假设我正在运行某种公共网络服务,我显然希望收集指标。为了这个论点,让我们假设我感兴趣的数据只是解析标准Apache访问日志时可用的数据。有没有办法维护这些类型的分析而不保留有关用户的识别信息?
我考虑过哈希IP地址等问题,但这有很多明显的问题。
答案 0 :(得分:1)
是。如果您不希望以纯文本格式存储IP地址,则可以使用HMAC对IP进行匿名化。问题可能在于referer url,它通常包含查询参数,对于请求也是如此。例如,如果用户邮件在查询中,则必须将其替换为(例如uuid)。
散列IPv4地址的问题是32位,因此很容易进行暴力搜索。除非密钥受到保护,否则HMAC可以稍微改善这种情况。 https://panopticlick.eff.org/使用此技术(定期删除/更改密钥)。
您实际上可以使用http://bug.st/mod_anonstats来匿名化IP,但仍会计算用户数。
可以很容易地解决敏感链接的引用:http://www.whatwg.org/specs/web-apps/current-work/multipage/links.html#link-type-noreferrer 然而,这假定是现代浏览器。