应用错误收集

我有一个独特的问题，我不知道任何可以帮助我的算法。也许有人在这里。

我有一个从许多不同来源（团队）编译的数据集。特别是一个字段称为“类型”。以下是类型的一些示例值：

aple，苹果，苹果，ornge，水果，橙子，橙子，梨，花椰菜，colifower，brocli，brocoli，韭菜，蔬菜，蔬菜。

我希望能够将它们组合成例如水果，蔬菜等。

换句话说，我对父级变量（本例中的水果或蔬菜）的各种排列有多种拼写，我需要能够尽可能地对它们进行分组。

数据的唯一其他潜在相关特征是进入它的团队，假设每个团队输入数据的方式有一定的一致性。

所以，我有几百万个拼写和拼写错误（例如苹果，appls）的记录，我想以某种方式将它们组合在一起。在这个例子中，水果和蔬菜。

聚类将具有挑战性，因为每个条目通常是1或2个单词，这使得计算术语之间的距离变得棘手。

如果没有创建由人类创建的大量查找表（不太可能有数百万行），我可以采取任何方法解决这个问题吗？