企业ID分配和记录链接

时间:2018-11-08 04:25:45

标签: machine-learning deep-learning bigdata scalability fuzzy-search

我有一个用例可以用普通方法解决,但..

我想在低质量的客户数据中找到重复项。缺乏标准,名称的不同顺序,标点,缩写,拼写错误等

我需要能够为每个人生成唯一的ID,并将引用相同ID的同一人的记录聚集在一起。

大约有12亿条记录需要首先进行聚类。

在那之后,一种情况是我将获得10万到2000万条记录,并且必须将它们重复进行大数据集的重复数据处理。

通常,我可以通过规范化过程来解决此问题,将记录划分到可以大大缩小搜索空间的东西上,然后手动找出一些编码规则,以很高的精度捕获大多数情况。

说起来容易做起来难,但也许可行。也许甚至是最好的方法?

或者在这里可以执行的深度学习有适当的用途吗?

在我看来,存在两个主要挑战:

1)如何可靠地确定一条记录是否与另一条记录匹配,并且内置了许多“模糊性”

2)如何在如此庞大的数据量下仍保持规模

使用Kubernetes之类的东西,也许我不需要Spark?也许Spark更好?还是其他?

0 个答案:

没有答案