词汇级相似词聚类工具

时间:2013-04-01 12:46:05

标签: machine-learning nlp text-mining stemming

是否有任何开放的软件工具包可以比较单词之间的词汇级相似性并将相似单词组合在一起?例如,Blue jean,Blue jeans和blue jea(miss-spelled)应该组合在一起?我不需要在这里寻找语义相似性。

2 个答案:

答案 0 :(得分:0)

尝试使用自然语言工具包http://nltk.org/

这是布朗聚类算法http://www.cs.columbia.edu/~cs4705/lectures/brown.pdf

的一个相当抽象的处理方法

单词之间的标准相似性度量是Levenstein距离 http://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance

答案 1 :(得分:0)

我相信你对阻止比对实际聚类更感兴趣,例如使用Levensthein距离:使用无监督的文本相似性 way 太可能产生误报。

从词汇相似性的角度来看,

blue jean
blue dean

也只是一个不同的角色。然而,这是一个不太可能的错字。

你真的想使用监督的这样的东西,比如porter stemmers来匹配。