模糊c-表示分类数据

时间:2011-10-08 18:00:54

标签: machine-learning cluster-analysis data-mining fuzzy

fuzzy c-means可以应用于非数值数据集吗?即分类或混合数字和分类.. 如果是的话(我希望如此:():

  • 我们如何计算集群中心?

如果否,那么替代方案..如何模糊聚类这些数据?

我需要回复请帮助

注意:我已经使用雅加德系数来计算2点之间的距离,但仍无法计算聚类中心,请参阅附件enter image description here jacard coefficient

1 个答案:

答案 0 :(得分:4)

您必须将数据转换为数字形式。有多种方法可以做到这一点,其中两种方式是:

  • 使用特征计数的向量(在例如文本分类中常见)
  • 使用单热表示,其中可以采用 n 不同值的分类功能表示为 n 位的字符串,只有 i 如果某个功能在其允许的范围内具有 i '值,则设置为位。

两者都是非常常见的转换,很多机器学习程序都是在幕后进行的。此外,您可能希望尝试使用与欧几里德不同的度量标准。 ESP。使用单热表示,但根据数据,L1标准(曼哈顿/城市街区距离)可能更合适。

除此之外,只需将给定的公式应用于转换的数据集。