我有一组关键术语,并且计算了TF-IDF权重以及每个术语的标记频率和术语计数,并保存在数据库中。
如果给定单数项,我如何使用这些DB值来生成一组相关术语?
我已经阅读了TF-IDF上的维基百科页面,并且已经消耗了许多谷歌搜索结果,这些搜索结果与余弦相似性,n-gram算法等有关。我的优势不在于线性代数,IR或微积分,所以我很难理解这些文档。
我想知道TF-IDF权重与相关性的关系。有没有方法对这些值进行排名?我是否需要根据预定义术语的权重对它们进行排名?
如果我拥有这些号码,我该如何使用它们?