我需要解释将其事务(和其他)数据从各种来源转换为数据仓库时可能遇到的实际问题。根据我的知识,这是关于清洁和擦洗数据。如果有人知道任何实际问题,请帮助我。谢谢你的帮助
答案 0 :(得分:2)
这是一个广泛的主题,但我会提供一些很好的起点。
首先,想想历史。如果事务更新某些数据点,您是否需要追溯应用该事务,或者您是否需要记住在任何给定时间点的值。例如,假设您按城市每月都有客户报告,并且您的一位客户会移动。 DW应如何反映这一点。
考虑数据接受度。每个输入行都是一个很好的输入吗?例如,如果您正在处理网络数据,那么您可能不希望计算与用户流量相同的抓取工具和垃圾邮件制造者。
考虑数据同步。您的所有输入都使用相同的键吗?你知道怎么在他们之间翻译吗? A队是否与B队的“cust_id”意思相同?项目词汇表在这里非常有用。
考虑本地化。你是否在同一时区输入?他们都使用相同的日历系统吗?你需要处理unicode吗?
考虑报道。您捕获的数据是否能够回答人们对DW提出的问题?如果没有,您如何捕获可以的数据?
考虑演示。您是否应该向客户显示您用于内部报告的相同数据?财务是否需要看到与营销不同的数据?
这实际上只是揭示了一个主要DW项目出现问题的表面。我会向您推荐Ralph Kimball关于数据仓库的各种书籍,以便更深入地讨论问题和解决方案。希望这有助于您入门。
答案 1 :(得分:0)
你在问题中给出答案。
据我所知,这是关于清理和清理数据的。
你是对的。清理数据意味着您拥有公司范围的清洁元素属性列表,以及将不清洁元素更改为干净元素的映射。
与创建公司范围的干净元素属性列表相比,处理干净元素属性的数据是一件小事。
您必须让来自不同部门的人员就要存储的数据达成一致,并就每个元素的含义达成一致。这是一个困难的社会学问题。这不是一个非常困难的技术问题。
祝你公司范围内的清洁元素属性清单好运。