标签: metrics information-retrieval precision-recall
我开发了一个IR系统,通过在DB中应用一些搜索技术来返回用户问题的答案。我想用f1-Score来评估它的性能,但由于结果的可能状态可能是正确的或不正确的答案,我对TP,TN,FP,FN会有什么感到困惑。有任何想法吗?或者更合适的测试?