标签: document nlp similarity
我正在寻找一个包(任何语言,真的),我可以在50个文档的语料库中使用各种指标进行文档间相似性测试,如tfidf,okapi,语言模型,lsa等。
我希望结果是文档相似度矩阵,即doc1与doc2等x%相似......这是出于研究目的,而不是用于制作。我特别想要文档相似度矩阵,因为我想将其与人类评级相关联。
提前谢谢!
答案 0 :(得分:0)
如果您了解python,可以使用http://www.nltk.org - 它拥有您需要的一切,并且还有文档和python语言