应用错误收集

我正在使用ML构建Matching Alogoritm。项目是将内部客户数据与外部客户数据进行匹配。功能包括名称，地址，城市，州和邮政编码。

我们在数据集之间创建对并计算余弦相似度，然后将所有特征对的余弦值传递给高斯混合模型。我们从2个聚类开始，期望一个匹配聚类和一个不匹配聚类，但是ML不建立一个比赛集群，两个集群中都有比赛。

在传递给ML之前，我使用Standard scaler和minmax scaler，但是仍然无法获得明确的不匹配和匹配簇。如果我们增加簇，则会发生相同的事情。

名称，地址，州，城市和邮政编码或名称，地址，邮政编码或任何其他组合中的匹配可能具有较高的余弦相似性。我们正在处理大量数据，因此我们使用的是Spark ML。

我们如何实现最佳聚类？