经过预处理后,我有590000个记录的数据集,我想从中找到簇,并且它包含字符串数据(现在假设我只有一列具有590000个唯一值的数据集)。另外,我正在使用自定义的距离度量,并且需要计算尺寸为590000 * 590000的距离矩阵。我使用一些分区逻辑创建了距离矩阵,但是由于内存不足,无法将这些分区合并为一个大的距离矩阵。有没有人有解决这个问题的想法?我为此选择了DBSCAN。有什么方法可以使用深度学习方法?任何其他想法
答案 0 :(得分:0)
首先使用易于管理的示例。
因为我怀疑结果是否足够好,足以保证对无法使用的方法进行缩放?