我也在“Cross Validated”论坛上提出了这个问题,但到目前为止还没有答案,所以我也在这里尝试:
我想从我的数据(来自汽车公司的故障数据)计算相似性矩阵(我将进一步用于聚类目的)。数据由以下变量组成:
开始日期+时间(dd / mm / yyyy hh / mm / ss),DURATION(以秒为单位),周日(周一,周二,......),工作队(1,2,3), LOCALIZATION(1,2,3,...,20),FAILURE TYPE
从这一点可以清楚地看出,有连续的和分类的数据。您建议用什么方法来计算故障类型之间的相似性?我想我不能使用欧几里德距离,或高威的相似性。提前谢谢。
答案 0 :(得分:0)
不,您需要一个ad hoc函数来表示您对数据在现实世界中的含义的了解。据推测,它主要是对连续差异应用权重,对离散分类变量应用2D简单矩阵。但是,不要统治我们对极端价值观或模糊化的审查。