数据损坏最佳实践

时间:2016-07-05 08:49:06

标签: analytics data-warehouse data-cleansing data-cleaning

最近我听到很多人认为将损坏的值替换为999999或类似于超出基础数据字段正常值范围的值是个好习惯。

对我来说,这是完全的疯狂,并且当他们稍后将Tableau或其他分析插入数据仓库时,必然会导致新手用户的错误。

我实际上看不到这种方法的理由应用。

您对此有何看法?

2 个答案:

答案 0 :(得分:2)

当谈到将在聚合和计算中使用的度量时,我绝对不建议用更高或超出范围的值替换它们的值,在这种情况下用NULL替换值更合适,因为它不会破坏结果

当涉及维度和文本描述时,最好的方法是在维度表中添加一行来描述“未知”或“na”值,并使用事实表进行ID连接。

答案 1 :(得分:1)

遗憾的是,有些项目使用系统支持的非常高的值,并且在记录损坏(数据质量差)或孤立记录的情况下通过正常渠道(业务)无法输入没有支持属性的记录)。

但我们总是在表示层中过滤掉这些记录,以避免混淆最终用户。

或者你可以使用负数而不是非常高的数字。但是逻辑应该相同,我们需要在表示层中过滤掉这些记录。通过这种方式,我们可以在将来回溯纠正这些记录,并且可以使用过滤器轻松识别它们。