如何计算提取的正确数据记录的数量?

时间:2015-04-17 09:57:45

标签: information-retrieval evaluation text-extraction precision-recall

我想计算回忆和精度,我需要提取正确的数据记录,提取的数据记录总数和不正确的数据记录。

我输入了html页面,我从中提取有用数据并使用包装器生成输出html页面。

1 个答案:

答案 0 :(得分:-1)

要计算已提取的正确数据记录数,您需要拥有reference set正确的数据记录。您将比较输出的参考数据集,参考集是您的输出应匹配的理想输出。参考集也称为"gold standard"集。

参考集可以手工创建,或者,如果您的目的存在更好的IR系统,可以由其他系统制作。

要计算提取的正确数据记录的数量,您只需计算系统输出和黄金标准输出中的记录数。