我有一个用例可以用普通方法解决,但..
我想在低质量的客户数据中找到重复项。缺乏标准,名称的不同顺序,标点,缩写,拼写错误等
我需要能够为每个人生成唯一的ID,并将引用相同ID的同一人的记录聚集在一起。
大约有12亿条记录需要首先进行聚类。
在那之后,一种情况是我将获得10万到2000万条记录,并且必须将它们重复进行大数据集的重复数据处理。
通常,我可以通过规范化过程来解决此问题,将记录划分到可以大大缩小搜索空间的东西上,然后手动找出一些编码规则,以很高的精度捕获大多数情况。
说起来容易做起来难,但也许可行。也许甚至是最好的方法?
或者在这里可以执行的深度学习有适当的用途吗?
在我看来,存在两个主要挑战:
1)如何可靠地确定一条记录是否与另一条记录匹配,并且内置了许多“模糊性”
2)如何在如此庞大的数据量下仍保持规模
使用Kubernetes之类的东西,也许我不需要Spark?也许Spark更好?还是其他?