标签: matlab classification
我有一个单词列表,每组单词的数值。 在我的数据库中有时会错误地写出相同的单词,所以如果" dog"具有数值" 120",我还想为拼写错误分配相同的数字值,例如" dogg"。
到目前为止,我的想法是使用Levenshtein距离来计算单词的距离矩阵,我现在已经在Matlab中完成了。我的问题:现在哪种方法可以最好地聚类我的(明显对称的)距离矩阵,并且最后一步是能够预测新的数据集,这些数据可以分配给它们的数值?