标准化文本输入数据

时间:2017-06-21 09:06:47

标签: c# normalization levenshtein-distance standardized

我们从不受控制的外部来源收到大量类型数据。数据涵盖家用电器的品牌/型号。因为我们无法控制强制验证/自动完成这些数据的拼写/格式化非常混乱。

我知道像弹性搜索这样的东西可以在查询时忽略拼写错误。但是,我希望能够对数据进行分组和自动规范化,以便对数据进行分组。

我想过计算任何给定文本之间的levenshtein距离并将相似的条目组合在一起。但是,由于许多这些设备的名称中都有型号,容量等,因此会导致错误匹配的数量有问题。更不用说是一个计算量很大的操作。

使用住宅燃气锅炉的示例

  • VAILLANT Ecotec Pro 28
  • VAILLIANT Ecotec Pro 28
  • Vailliant Eco Tec 28 Pro
  • VAILLIANT turbomax 242 / 2-5
  • POTTERTON Promax Combi 28 HE Plus
  • POTTERTON promax 28

前3和后2是相同的。 显然,存在很多错误,包括格式化和拼写错误。

0 个答案:

没有答案