我希望使用TF-IDF使用余弦相似性方法得到两个词的语义相似性。 首先,我想从维基百科或word-net中获取这些词的含义。之后我想预处理文本并找到TF-IDF。当我搜索问题时,我发现为了找到TF-IDF,我们应该有一套火车和测试装置。在我的情况下,哪一个是火车组,哪一个是测试组?如何使用计算结果计算余弦相似度?
答案 0 :(得分:0)
训练阶段是根据文档中给定单词与所有文档的频率,在TF-IDF中找到权重calculated。获得所有权重后,就意味着您将每个文档转换为N个单词的向量。
现在,给定两个文档i和j,您可以通过余弦函数计算它们的相似度。两个矢量的余弦相似性度量是通过它们的点积来计算的。查看here了解更多信息。