通过统计分数实现更好的方法

时间:2011-10-27 19:09:01

标签: c# .net excel math statistics

我有7000个数据实例。

我将这些实例由人工(参考)手动评分。

我有不同的引擎来自动确定数据的分数。

我有一张excel表格,每列都描述了某个引擎的得分和一列手动评分数据。

我想知道哪个引擎使用Excel的函数,编程更接近人类的得分,或者只是给我简单的数学运算,我会解决它。

数据评分从-3.0到+3.0

我使用C#作为该应用程序,使用.NET Excel COM库来访问Excel工作表。

-UPDATE -

从统计学上讲,描述错误的最佳方法是什么,我的意思是人类得分往往接近中性(0),但是引擎的得分往往有偏差(超过1.5 +/-)我想成为能够确定以正确的方式描述和夸大错误的最佳方程式。

3 个答案:

答案 0 :(得分:4)

我建议使用均方误差。对于每个数据实例,计算每个引擎的差异的平方。这会夸大错误,并给出正数。然后你得到每个引擎的平均平方误差。最低的将是人类的“最接近”估计。

答案 1 :(得分:1)

通常通过从人类得分中减去引擎得分,取绝对值,然后对所有7000求和来完成。具有最小总和的引擎是最接近的。

答案 2 :(得分:1)

如果每个数据点都在相同的范围内,那么数据集之间的Euclidean distance应该足够好。为清楚起见,数据实例将被编号,引擎将被编号。如果人类在数据点i上给出的分数为H_i,并且引擎a给出的分数为Ea_i,那么错误(如何“不关闭”a引擎a的给定引擎是:

ERROR(a) = (H_1 - Ea_1)^2 + (H_2 - Ea_2)^2 + … + (H_7000 - Ea_7000)^2

最近的引擎是错误最小的引擎。