让我们想象一下,我们可以建立一个统计表,每个单词在一些英文文本或书中使用了多少。我们可以收集图书馆中每个文本/书籍的统计数据。 将这些统计数据相互比较的最简单方法是什么?我们怎样才能找到具有非常统计相似词汇的文本组/群?
答案 0 :(得分:1)
首先,您需要对词典进行规范化(即确保两个词汇都具有相同的词汇表)。
然后,您可以使用Hellenger distance或cosine similarity等相似性指标来比较两个词典。
查看机器学习包(例如Weka。
)也是一个好主意This book是机器学习的绝佳来源,您可能会发现它很有用。
答案 1 :(得分:0)
我首先要看看Lucene(http://lucene.apache.org/java/docs/index.html)提供的内容。之后,您将需要使用机器学习方法并查看http://en.wikipedia.org/wiki/Information_retrieval。
答案 2 :(得分:0)
您可以考虑Kullback Leibler距离。供参考,请参阅封面和托马斯的第18页: