在R

时间:2016-10-20 11:13:40

标签: r scikit-learn cluster-analysis data-science

我的df看起来像:

selection.body selection.hair selection.eyes selection.breasts selection.butt selection.skin         
normal         blonde          other             large         medium         tanned
normal         blonde          other                xl         medium         tanned
normal         blonde          other             large         medium         tanned
chubby         blonde           blue                xl          large         tanned
slim           blonde          other            medium          small          white

让我们将这个数据集想象成一项调查的答案:

  • 每一行代表一个响应者的选择,从一组封闭的偏好中选择他的偏好。

我已经做的是检查每个选择的频率,但我想继续前进。

我的目标是:

  • 确定最常见的选择组合。

  • 根据此组合对用户进行分组。

  • 选择之间的相关性

感谢您的提示。

1 个答案:

答案 0 :(得分:0)

查找最常见的组合不是聚类,而是频繁的项集挖掘。

你试过apriori吗?