我正在使用ML构建Matching Alogoritm。项目是将内部客户数据与外部客户数据进行匹配。功能包括名称,地址,城市,州和邮政编码。
我们在数据集之间创建对并计算余弦相似度,然后将所有特征对的余弦值传递给高斯混合模型。我们从2个聚类开始,期望一个匹配聚类和一个不匹配聚类,但是ML不建立一个比赛集群,两个集群中都有比赛。
在传递给ML之前,我使用Standard scaler和minmax scaler,但是仍然无法获得明确的不匹配和匹配簇。如果我们增加簇,则会发生相同的事情。
名称,地址,州,城市和邮政编码或名称,地址,邮政编码或任何其他组合中的匹配可能具有较高的余弦相似性。我们正在处理大量数据,因此我们使用的是Spark ML。
我们如何实现最佳聚类?