我有一个由不同数量的数据点和比例级别组成的数据集的集合,什么是对其进行规范化以确保一个数据集不超过另一个数据集的最佳方法是什么?目的是确保数据正确,以便我可以计算数据集之间的相似度。 我目前正在使用欧几里得距离来计算相似度,但是我感觉我没有正确准备数据集,相似度结果可能不准确。
数据集= 52个数据点集合(范围0-7)+ 6个数据点集合(范围1-7)+ 33个数据点集合(范围0-7)+ 35个数据点集合(范围0-7)+ 16个数据点集合(范围1-5)+ 6个数据点集合(1-7)
到目前为止,我采用了2种不同的方法,一种方法是组合所有数据收集并计算相似度。第二种方法是分别计算数据集合之间的相似度,然后求出相似度分数的平均值。
热衷于验证我的方法。请帮助
谢谢