应用错误收集

我有一个单词列表，每组单词的数值。在我的数据库中有时会错误地写出相同的单词，所以如果＆＃34; dog＆＃34;具有数值＆＃34; 120＆＃34;，我还想为拼写错误分配相同的数字值，例如＆＃34; dogg＆＃34;。

到目前为止，我的想法是使用Levenshtein距离来计算单词的距离矩阵，我现在已经在Matlab中完成了。我的问题：现在哪种方法可以最好地聚类我的（明显对称的）距离矩阵，并且最后一步是能够预测新的数据集，这些数据可以分配给它们的数值？