我需要比较包含特定主题标签的大量推文,以显示内容最高的推文。同样,我需要在它们中的每一个之间找到成对的余弦相似性,并以最高的成对余弦相似度作为输出显示推文。我一直在阅读很多关于向量空间模型,tf-idf向量,word2vec / doc2vec等但是无法完全掌握任何东西。我需要使用Java实现相同的功能。 scikit-learn的TfidfVectorizer或NLTK的同义词有什么替代方案吗?
答案 0 :(得分:0)
您可以使用Apache Mahout对驻留在文件夹中的所有文本文档进行矢量化。
第一步是创建序列文件,然后从这些序列文件创建向量。
这个page描述了如何做到这一点。然后,您可以使用 RowSimilarityJob 类来计算余弦相似度。