如何使用Java找到两个文本文档之间的余弦相似度?

时间:2017-03-28 16:58:27

标签: java nlp tf-idf cosine-similarity doc2vec

我需要比较包含特定主题标签的大量推文,以显示内容最高的推文。同样,我需要在它们中的每一个之间找到成对的余弦相似性,并以最高的成对余弦相似度作为输出显示推文。我一直在阅读很多关于向量空间模型,tf-idf向量,word2vec / doc2vec等但是无法完全掌握任何东西。我需要使用Java实现相同的功能。 scikit-learn的TfidfVectorizer或NLTK的同义词有什么替代方案吗?

1 个答案:

答案 0 :(得分:0)

您可以使用Apache Mahout对驻留在文件夹中的所有文本文档进行矢量化。

第一步是创建序列文件,然后从这些序列文件创建向量

这个page描述了如何做到这一点。然后,您可以使用 RowSimilarityJob 类来计算余弦相似度。