如何解释mahout中的IRStatisticsImpl数据

时间:2013-05-10 08:38:22

标签: statistics mahout information-retrieval

我想阅读IRStatisticsImpl数据,但有一些问题:

我的结果是:

IRStatisticsImpl[precision:0.04285714285714287,recall:0.04275534441805227,fallOut:0.0018668022652391654,nDCG:0.04447353132522083,reach:0.997624703087886]

是否意味着,我只获得了4%的好推荐(精确度)和大约相同水平的不良推荐(召回)?

这些数字最好是什么样的 - 精度为1.0,召回时为0.0?

1 个答案:

答案 0 :(得分:2)

嗯,根据定义:

Precision表示结果集中有多少结果是正确的。 Recall表示必须将测试集中的正确元素选择为正确并在结果集中选取的概率。

完美精度和召回应该都是100%。必须根据您的域名评估有关这些值的良好结果和标准。

例如,如果您有一个带有好蘑菇和坏蘑菇的水桶,无论您的召回有多低,您都应该瞄准100%的精确度。因为精确度对您的健康至关重要,您甚至可以留下很多好蘑菇。重要的是吃掉丑陋的东西。 你可以选择一个好的蘑菇,这样你就可以获得100%的精确度,但如果你的桶中有四个好的蘑菇,你的召回率是25%。 理想情况下,如果精确度和召回率为100%,则意味着在结果集中所有蘑菇都很好并且所有好的蘑菇都在您的结果集中,并且没有一个留在您的测试集中。

所以价值观可能有不同的含义。

可悲的是,你的结果看起来非常难看,因为你有很多误报和过多的假阴性。

看看here