我已经阅读了词干损害精确度但提高了文本分类中的召回率。这是怎么发生的?当你阻止你增加查询和样本文件之间的匹配数吗?
答案 0 :(得分:8)
总是一样的,如果你提醒回忆,你做一个概括。正因为如此,你正在失去精确度。将词汇合并在一起。
一方面,词汇应该合并在一起(例如“粘附”和“粘附”)可能在词干后保持不同;另一方面,真正不同的词可能被错误地混淆(例如,“实验”和“经验”)。这些被分别称为表达式错误和过度控制错误。
Overstemming降低了精度,而表达式降低了召回率。因此,由于没有任何干扰就意味着没有超过但最大的欠限误差,因此您的召回率较低且精度较高。
顺便说一句,精确意味着您找到的“文件”中有多少是您正在寻找的。召回意味着你收到的所有“文件”中有多少是正确的。
答案 1 :(得分:-1)
来自Query_expansion上的维基百科条目:
通过限制用户输入的术语,可以匹配更多文档,因为用户输入的术语的替代单词形式也会匹配,从而增加了总召回率。这是以降低精度为代价的。通过扩展搜索查询以搜索用户输入的术语的同义词,也会以牺牲精度为代价来增加召回。这是由于计算精度的等式的性质,因为较大的召回隐含地导致精度降低,因为召回因素是分母的一部分。还可以推断,较大的召回会对整体搜索结果质量产生负面影响,因为许多用户不希望有更多结果可以梳理,无论精度如何。