用混合数据计算相似度矩阵

时间:2017-01-07 18:55:27

标签: cluster-analysis data-mining similarity categorical-data

我也在“Cross Validated”论坛上提出了这个问题,但到目前为止还没有答案,所以我也在这里尝试:

我想从我的数据(来自汽车公司的故障数据)计算相似性矩阵(我将进一步用于聚类目的)。数据由以下变量组成:

开始日期+时间(dd / mm / yyyy hh / mm / ss),DURATION(以秒为单位),周日(周一,周二,......),工作队(1,2,3), LOCALIZATION(1,2,3,...,20),FAILURE TYPE

从这一点可以清楚地看出,有连续的和分类的数据。您建议用什么方法来计算故障类型之间的相似性?我想我不能使用欧几里德距离,或高威的相似性。提前谢谢。

1 个答案:

答案 0 :(得分:0)

不,您需要一个ad hoc函数来表示您对数据在现实世界中的含义的了解。据推测,它主要是对连续差异应用权重,对离散分类变量应用2D简单矩阵。但是,不要统治我们对极端价值观或模糊化的审查。