应用错误收集

时间：2011-01-23 01:05:57

标签： algorithm statistics lexicon

让我们想象一下，我们可以建立一个统计表，每个单词在一些英文文本或书中使用了多少。我们可以收集图书馆中每个文本/书籍的统计数据。将这些统计数据相互比较的最简单方法是什么？我们怎样才能找到具有非常统计相似词汇的文本组/群？

答案 0 :(得分：1)

首先，您需要对词典进行规范化（即确保两个词汇都具有相同的词汇表）。

然后，您可以使用Hellenger distance或cosine similarity等相似性指标来比较两个词典。

查看机器学习包（例如Weka。

）也是一个好主意

This book是机器学习的绝佳来源，您可能会发现它很有用。

答案 1 :(得分：0)

我首先要看看Lucene（http://lucene.apache.org/java/docs/index.html）提供的内容。之后，您将需要使用机器学习方法并查看http://en.wikipedia.org/wiki/Information_retrieval。

答案 2 :(得分：0)

您可以考虑Kullback Leibler距离。供参考，请参阅封面和托马斯的第18页：