聚类或球形k均值之前的高维稀疏数据的维数减少?

时间:2016-02-18 12:37:39

标签: cluster-analysis sparse-matrix recommendation-engine euclidean-distance dimensionality-reduction

我正在尝试构建我的第一个推荐系统,在那里我创建一个用户特征空间,然后将它们聚集到不同的组中。然后,对于为特定用户工作的建议,首先我找出用户所属的集群,然后推荐他/她的最近邻居表现出兴趣的实体(项目)。我正在处理的数据是高维和稀疏的。在实施上述方法之前,几乎没有问题,其答案可能有助于我采用更好的方法。

  1. 由于我的数据是高维和稀疏的,我应该去减少维数然后应用聚类还是应该使用像稀疏高维数据一样的球形K-means算法?

    < / LI>
  2. 如何在创建用户群后找到最近的邻居。(我应该采用哪种距离测量,因为我已经读过欧几里德距离不是高维数据的好方法)?

1 个答案:

答案 0 :(得分:1)

在这里,聚类是正确的算法并不明显。聚类非常适合数据探索和分析,但并不总是用于预测。如果您的最终产品基于&#34;类似用户组的概念&#34;以及他们共享的项目,然后继续进行聚类,并简单地呈现每个用户的群集已消耗的项目的排序列表(或者如果您有偏好信息,则为加权平均评级)。

您可以尝试在稀疏高维情况下工作的标准推荐算法,例如项目项协同过滤或稀疏SVD。