聚类算法的建议?

时间:2019-06-26 13:29:54

标签: apache-spark deep-learning cluster-analysis dbscan hdbscan

经过预处理后,我有590000个记录的数据集,我想从中找到簇,并且它包含字符串数据(现在假设我只有一列具有590000个唯一值的数据集)。另外,我正在使用自定义的距离度量,并且需要计算尺寸为590000 * 590000的距离矩阵。我使用一些分区逻辑创建了距离矩阵,但是由于内存不足,无法将这些分区合并为一个大的距离矩阵。有没有人有解决这个问题的想法?我为此选择了DBSCAN。有什么方法可以使用深度学习方法?任何其他想法

1 个答案:

答案 0 :(得分:0)

首先使用易于管理的示例。

因为我怀疑结果是否足够好,足以保证对无法使用的方法进行缩放?