以下是问题陈述:
我有来自不同年份的2个数据集(2013年数据集和2014年数据集),数据是多变量的,每个数据集包含38个属性,我想找出这些连续年份中两个数据集之间可能出现的任何差异/差异,这个差异应该是一个数值。
到目前为止,我已应用以下技术:
1)ANOVA(这告诉我存在差异,但它没有告诉我差异有多大)
2)Wilcoxon-Mann-Whitney U检验(与ANOVA相同的问题)
3)找出数据集平均值之间的均方误差。
问题:
1)他们可以应用的任何其他方法/测试是否能给出数据集之间差异的数值?
2)如果我将2013年数据集标记为“1”并将2014年数据集标记为“2”,那么可以使用经过训练来分类这些数据集的神经网络的权重来以某种方式找到数据集之间的差异吗?
注意:由于保密协议,我无法在此处分享数据。
答案 0 :(得分:1)
不知道你是否找到了答案。
您是否尝试过使用RMSE?您可以为数据集的每一列创建分数,然后将它们组合以获得整个数据的平均分数。
这不是一个完美的方法,但在将多个数据集与彼此进行比较时,它应该给出一定的差异。
如果您确实找到了比我建议的更好的答案,请让我知道,因为我会对它感兴趣。
一切顺利。