应用错误收集

聚类算法的建议？

时间：2019-06-26 13:29:54

标签： apache-spark deep-learning cluster-analysis dbscan hdbscan

经过预处理后，我有590000个记录的数据集，我想从中找到簇，并且它包含字符串数据（现在假设我只有一列具有590000个唯一值的数据集）。另外，我正在使用自定义的距离度量，并且需要计算尺寸为590000 * 590000的距离矩阵。我使用一些分区逻辑创建了距离矩阵，但是由于内存不足，无法将这些分区合并为一个大的距离矩阵。有没有人有解决这个问题的想法？我为此选择了DBSCAN。有什么方法可以使用深度学习方法？任何其他想法

1 个答案:

答案 0 :(得分：0)

首先使用易于管理的示例。

因为我怀疑结果是否足够好，足以保证对无法使用的方法进行缩放？

用于自动建议的算法
关于k-means聚类输入的建议（欢迎提出更多建议）
需要有关Mahout群集的建议
算法建议
集群实施的想法
k-means用于文本聚类
建议限制模糊搜索建议结果
Python Kruskal的聚类算法
光线的聚类算法
聚类算法的建议？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？