标签: nlp string-matching similarity text-extraction approximate
我想从语料库中提取类似的单词。相似性基于字符串。即,当两个单词的字符串高度相似时,两个单词被提取为相似的单词。例如,如果语料库包含:Aras,bahro,arasis,adkpo,bah,aras sd,kio。
类似的话:
1- aras,arasis,aras sd
2- bahro,bah
如何解决这个问题? 感谢。
答案 0 :(得分:0)
Levenshtein distance是衡量两个单词序列之间差异的指标,也许您可以采用一系列单词并计算距离以了解它们是否相似。