无监督离散化,可将连续转换为分类,用于频繁项集挖掘

时间:2018-01-31 00:44:52

标签: r transactions cluster-analysis arules discretization

我正在使用Package'arules'来挖掘我的大数据中的频繁项目集,但我找不到合适的离散化方法。

作为“arules”包中的示例,可以在函数“离散化”中使用几种基本的无监督方法,但我想估算大数据集中的最佳类别数,看起来比分配类别数更合理

你能否给我一些好的建议,谢谢。

@ Michael Hahsler

1 个答案:

答案 0 :(得分:0)

我认为对无监督离散化的指导很少。查看每个变量的直方图并手动决定。对于k-means,你可能会使用策略来使用内部验证技术(即肘法)找到k。对于有监督的离散化,有一些方法可以帮助您做出决定。也许其他人可以在这里帮忙。