我尝试过使用
- kmeansparse,来自sparcl软件包(缺少内存错误)
来自Biganalytics的- bigkmeans(奇怪的错误:无法在线找到任何内容; duplicated.default中的错误(中心[[length(centers)]]):
duplicated()仅适用于矢量)
- skmean来自skmeans(与kmeans类似的结果)
醇>
但我仍然无法为稀疏数据获得正确的聚类。群集没有很好地定义,大多数部分具有重叠的成员资格。我是否在处理稀疏数据方面遗漏了一些东西?
建议对数据进行哪种预处理?是否应将缺失值标记为-1而不是0以明确区分?如果您有任何可能有用的想法,请随时询问更多详细信息。