标签: nlp information-retrieval tf-idf text-analysis
我正在开发一个包含矢量空间模型基本实现的项目。文档集合d1 ... dn构成术语文档矩阵的列,行表示集合中的单词。我使用具有余弦相似性的标准tf-idf评分来计算查询和文档之间的距离。
我的问题是,哪个距离指标可以“解决”短文档之间的相似性。示例:包含单个单词的文档(它是查询的一部分)将使用余弦相似性得分非常高,因为此类文档的规范非常小。我如何“惩罚”这些明显无关的文件呢?