我有一堆客户数据被归一化为多个表格。我想确定最佳标准,以便最好地猜测客户可能是相同的。需要在最小化重复数量之间取得平衡,同时最大限度地减少误报,从而打断用户询问潜在的欺骗行为。
我正在查看名字/姓氏+电话号码的某种组合电子邮件地址。
第一个问题是,确定客户是否与另一位客户相同的一套良好标准。
第二个问题是,对于这个特定的应用程序,我只想检测在过去2个月左右注册的客户的重复项。这会改变检测标准吗?
答案 0 :(得分:1)
如果客户是重复账户的所有者,您会如何询问客户?
“嘿Sam Jones,还有另一个Sam Jones在你所在地区有一个ip,他的电子邮件是sam.jones@abc.com,你最近的注册邮件是sam.jones@apple.com,是吗?同一个男/女?“如果上述内容甚至接近您的情况,那么您将泄露私人信息。即另一个Sam Jone的电子邮件地址。
通常,您不允许客户使用相同的电子邮件地址注册,其次您确认他们注册的电子邮件地址是有效的。这样,如果他们再次使用电子邮件中的错误输入进行注册,则无法对其进行验证。
答案 1 :(得分:0)
重要的是选择不太可能改变的属性。如果您使用类似电话号码或电子邮件地址的内容,那么每当有人更换ISP或移动电话提供商时,您都可能面临重复。
如果这些客户是过去购物的客户,则可以存储其信用卡号的哈希值和其帐单邮寄地址的哈希值。每当他们再次购买时,请将其付款信息哈希并将其与您的数据库进行比较。 (注意我说要存放一个 哈希,不他们的实际付款信息)
答案 2 :(得分:0)
如果您仍然对此问题感兴趣,请检查此工具https://sourceforge.net/projects/deduper/
我写这个工具主要是为了你在这个问题中提到的目的