我们从不受控制的外部来源收到大量类型数据。数据涵盖家用电器的品牌/型号。因为我们无法控制强制验证/自动完成这些数据的拼写/格式化非常混乱。
我知道像弹性搜索这样的东西可以在查询时忽略拼写错误。但是,我希望能够对数据进行分组和自动规范化,以便对数据进行分组。
我想过计算任何给定文本之间的levenshtein距离并将相似的条目组合在一起。但是,由于许多这些设备的名称中都有型号,容量等,因此会导致错误匹配的数量有问题。更不用说是一个计算量很大的操作。
使用住宅燃气锅炉的示例
前3和后2是相同的。 显然,存在很多错误,包括格式化和拼写错误。