用于比较LSA,TFIDF,余弦指标和语言模型的包

时间:2009-10-12 21:12:48

标签: document nlp similarity

我正在寻找一个包(任何语言,真的),我可以在50个文档的语料库中使用各种指标进行文档间相似性测试,如tfidf,okapi,语言模型,lsa等。

我希望结果是文档相似度矩阵,即doc1与doc2等x%相似......这是出于研究目的,而不是用于制作。我特别想要文档相似度矩阵,因为我想将其与人类评级相关联。

提前谢谢!

1 个答案:

答案 0 :(得分:0)

如果您了解python,可以使用http://www.nltk.org - 它拥有您需要的一切,并且还有文档和python语言