标签: python-2.7 cluster-analysis dbscan
我正在尝试创建一个距离矩阵来运行DBSCAN算法以进行聚类。最终的距离矩阵有174,000个X 174,000条目,它们都是0到1之间的浮动数字。我有单独的列表(全部174,000个)保存,其中数字保存为int,但是当我尝试合并到一个数组中时,我保留内存耗尽。
有没有办法压缩数据(我试过hdf5,但这似乎也很困难),可以处理如此庞大的数据集?