英语文本词典比较

时间:2011-01-23 01:05:57

标签: algorithm statistics lexicon

让我们想象一下,我们可以建立一个统计表,每个单词在一些英文文本或书中使用了多少。我们可以收集图书馆中每个文本/书籍的统计数据。 将这些统计数据相互比较的最简单方法是什么?我们怎样才能找到具有非常统计相似词汇的文本组/群?

3 个答案:

答案 0 :(得分:1)

首先,您需要对词典进行规范化(即确保两个词汇都具有相同的词汇表)。

然后,您可以使用Hellenger distancecosine similarity等相似性指标来比较两个词典。

查看机器学习包(例如Weka

)也是一个好主意

This book是机器学习的绝佳来源,您可能会发现它很有用。

答案 1 :(得分:0)

我首先要看看Lucene(http://lucene.apache.org/java/docs/index.html)提供的内容。之后,您将需要使用机器学习方法并查看http://en.wikipedia.org/wiki/Information_retrieval

答案 2 :(得分:0)

您可以考虑Kullback Leibler距离。供参考,请参阅封面和托马斯的第18页:

Chapter 2, Cover and Thomas