文档查询非常短的文档的相似性

时间:2013-07-09 07:22:37

标签: nlp information-retrieval tf-idf text-analysis

我正在开发一个包含矢量空间模型基本实现的项目。文档集合d1 ... dn构成术语文档矩阵的列,行表示集合中的单词。我使用具有余弦相似性的标准tf-idf评分来计算查询和文档之间的距离。

我的问题是,哪个距离指标可以“解决”短文档之间的相似性。示例:包含单个单词的文档(它是查询的一部分)将使用余弦相似性得分非常高,因为此类文档的规范非常小。我如何“惩罚”这些明显无关的文件呢?

0 个答案:

没有答案