应用错误收集

时间：2012-04-12 23:42:50

标签： duplicate-data deduplication

我有一堆客户数据被归一化为多个表格。我想确定最佳标准，以便最好地猜测客户可能是相同的。需要在最小化重复数量之间取得平衡，同时最大限度地减少误报，从而打断用户询问潜在的欺骗行为。

我正在查看名字/姓氏+电话号码的某种组合电子邮件地址。

第一个问题是，确定客户是否与另一位客户相同的一套良好标准。

第二个问题是，对于这个特定的应用程序，我只想检测在过去2个月左右注册的客户的重复项。这会改变检测标准吗？

答案 0 :(得分：1)

如果客户是重复账户的所有者，您会如何询问客户？

“嘿Sam Jones，还有另一个Sam Jones在你所在地区有一个ip，他的电子邮件是sam.jones@abc.com，你最近的注册邮件是sam.jones@apple.com，是吗？同一个男/女？“

如果上述内容甚至接近您的情况，那么您将泄露私人信息。即另一个Sam Jone的电子邮件地址。

通常，您不允许客户使用相同的电子邮件地址注册，其次您确认他们注册的电子邮件地址是有效的。这样，如果他们再次使用电子邮件中的错误输入进行注册，则无法对其进行验证。

答案 1 :(得分：0)

重要的是选择不太可能改变的属性。如果您使用类似电话号码或电子邮件地址的内容，那么每当有人更换ISP或移动电话提供商时，您都可能面临重复。

如果这些客户是过去购物的客户，则可以存储其信用卡号的哈希值和其帐单邮寄地址的哈希值。每当他们再次购买时，请将其付款信息哈希并将其与您的数据库进行比较。（注意我说要存放一个哈希，不他们的实际付款信息）

答案 2 :(得分：0)

如果您仍然对此问题感兴趣，请检查此工具https://sourceforge.net/projects/deduper/

我写这个工具主要是为了你在这个问题中提到的目的