针对极大数据集的稀疏数据聚类

时间:2015-11-06 20:17:09

标签: r cluster-analysis sparse-matrix k-means r-bigmemory

我尝试过使用

  1. kmeansparse,来自sparcl软件包(缺少内存错误)
  2. 来自Biganalytics的
  3. bigkmeans(奇怪的错误:无法在线找到任何内容; duplicated.default中的错误(中心[[length(centers)]]):    duplicated()仅适用于矢量)
  4. skmean来自skmeans(与kmeans类似的结果)
  5. 但我仍然无法为稀疏数据获得正确的聚类。群集没有很好地定义,大多数部分具有重叠的成员资格。我是否在处理稀疏数据方面遗漏了一些东西? 建议对数据进行哪种预处理?是否应将缺失值标记为-1而不是0以明确区分?如果您有任何可能有用的想法,请随时询问更多详细信息。

0 个答案:

没有答案