如何计算TF-IDF

时间:2012-10-05 19:23:20

标签: nlp tf-idf

我希望使用TF-IDF使用余弦相似性方法得到两个词的语义相似性。 首先,我想从维基百科或word-net中获取这些词的含义。之后我想预处理文本并找到TF-IDF。当我搜索问题时,我发现为了找到TF-IDF,我们应该有一套火车和测试装置。在我的情况下,哪一个是火车组,哪一个是测试组?如何使用计算结果计算余弦相似度?

1 个答案:

答案 0 :(得分:0)

训练阶段是根据文档中给定单词与所有文档的频率,在TF-IDF中找到权重calculated。获得所有权重后,就意味着您将每个文档转换为N个单词的向量。

现在,给定两个文档i和j,您可以通过余弦函数计算它们的相似度。两个矢量的余弦相似性度量是通过它们的点积来计算的。查看here了解更多信息。