Calculte精度和文本挖掘结果的召回

时间:2016-03-16 11:31:03

标签: machine-learning classification precision-recall

我正在做一个项目,使用文本挖掘找出疾病相关基因。我正在使用1000篇文章。我得到了大约129个基因名称。实际数据集包含大约1000个条目。现在我想计算我的方法的精度和召回率。当我进行比较时,在129个基因中,有72个被发现是正确的。所以 精度= 72/129。 这是对的吗? 现在我该如何计算召回?请帮忙

2 个答案:

答案 0 :(得分:0)

Wikipedia Article on Precision and Recall可能有所帮助。 定义如下:

Precision: tp / (tp+fp)
Recall: tp / (tp + fn)

tp是真正的阳性(与疾病相关的基因,你发现它们),fp是假阳性(你找到的基因,但它们实际上并没有与之相关)疾病)和fn是假阴性(实际上与疾病相关的基因,但你没有发现它们)。

我不太确定您发布的数字代表什么。你知道与这种疾病真正相关的基因吗?

您最有可能计算出准确度:

Accuracy = (tp + fp) / (Total Number)

答案 1 :(得分:0)

主要问题是我正在考虑的文章可能不包含所有最初列出的基因名称,因为它是一个小数据集。因此,在计算召回时,我可以将基因的原始数据库与文章进行比较,而不是将分母视为1000,以找出文献中存在多少原始相关基因。也就是说,如果有1000个相关基因,我将检查1000个我正在考虑的数据集中有多少个。如果它是300,我将分母设置为300而不是1000.这将给予回忆。