重叠数据仓库中的记录

时间:2015-10-06 03:36:47

标签: data-warehouse

我正在尝试构建数据仓库,数据由三个不同的来源提供。这里的问题是存在重叠的客户,因为同一客户可以存在于所有数据源中但具有不同的标识(不同的主键)。如何避免在我的数据仓库中多次获得同一个客户?

1 个答案:

答案 0 :(得分:0)

这不是一个真正的编程问题,但简短的回答是,您需要找到一些比较客户记录的方法,确定哪些是同一客户,然后将详细信息合并到一个客户记录中。如果没有与不同系统中的这些记录相关的代码或其他值,则根据您拥有的记录数量,您可以选择手动比较和记录任何匹配,使用软件进行“模糊匹配”属性比较喜欢名称和地址来尝试找到匹配项。您可以尝试在数据仓库加载过程中执行此操作,在内部编写应用程序以管理它或获取具有此功能的第三方工具。这是一个常见的业务问题,但不幸的是没有一个简单的解决方案。