我可以合并两个版本的数据并对其进行聚类,然后根据每个聚类分布检查新数据是否与旧数据一致

时间:2019-07-17 06:27:18

标签: machine-learning

当前,我有两个版本的数据,每个版本都有不同的ID命名法。我需要确认新版本与旧版本相似。数据具有混合变量。我的问题是我可以合并两个数据并执行K-Prototypes并在每个群集中进行检查,两个版本的分布是否相同。给定置信区间,我可以通过/停止新版本。

我已经通过描述性统计,统计测试,聚类-分类-预测进行了分析。数据的GB数量巨大,执行此过程需要大量时间,并且在计算上也非常昂贵。我需要更简单的ML聚类方法(未标记的数据)来找到解决方案。我已经尝试了合并数据,但结果却不尽相同。

解决此问题的任何新方法。或者需要在合并数据集时进行验证,然后对每个集群中的新旧版本数据进行聚类和验证

0 个答案:

没有答案