我有一个非标准化的表格,显示汽车销售详细说明汽车品牌,型号和子模型。因为它没有标准化,所以它具有真正的价值,而不是具有引用汽车品牌,模型和子模型的ID。这些值是在员工迁移的旧应用程序中手动输入的,因此可能会出现拼写错误,类似单词,空格,短划线等问题。
我创建了一个规范化的表,我需要将现有数据从非规范化表迁移到新的规范化表。我需要找到与每个值相对应的ID(汽车品牌,型号和子型号的ID)。但是,这并不是那么容易,因为,例如,奥迪(汽车制造)A4(车型)1.8T(子型号)可以写成奥迪A4 1.8Turbo或奥迪A4 1.8Turbo Injection或奥迪A4 1.8 TFI等。因此,同一实体的许多不同文本值。 我认为,考虑到上面给出的上下文,获取ID的最佳选择是为每个实体创建一个别名表。例如,CarSubModelAlias。这些表将指定映射到同一实体的所有不同值。 不幸的是,我有超过3,500个子模型,并且很难填充这些表格。
有任何建议或建议吗?
答案 0 :(得分:1)
Jayvee是对的,最好的方法是开发SSIS包。使用“精确匹配”和“模糊匹配”组件将源数据与目标进行匹配。这样你也可以规范化数据。