从语料库中提取类似的单词

时间:2014-08-28 05:30:48

标签: nlp string-matching similarity text-extraction approximate

我想从语料库中提取类似的单词。相似性基于字符串。即,当两个单词的字符串高度相似时,两个单词被提取为相似的单词。例如,如果语料库包含:Aras,bahro,arasis,adkpo,bah,aras sd,kio。

类似的话:

1- aras,arasis,aras sd

2- bahro,bah

如何解决这个问题? 感谢。

1 个答案:

答案 0 :(得分:0)

Levenshtein distance是衡量两个单词序列之间差异的指标,也许您可​​以采用一系列单词并计算距离以了解它们是否相似。