数据质量框架定义关注

时间:2014-10-04 01:49:32

标签: frameworks data-quality

有人可以帮我定义数据质量框架来分析某种数据吗?只是对它应该做什么的高级描述?只是你的想法。

2 个答案:

答案 0 :(得分:0)

答案取决于您感兴趣的背景(例如,支持特定领域或使用特定技术)......希望这些高级笔记有一些用处。

因此,鉴于对数据做出的决策假定该数据的质量水平 - 例如,使用汇总的“管理信息”制定战略决策,或者用于自动化处理 - 那么数据质量框架可能会考虑评估针对若干措施的数据,以便了解对数据质量的信任程度。

实际上,可以评估每个数据属性的可测量事物:

  1. 如果是强制性的,是否填充;
  2. 如果它由特定数据类型(例如日期,数字)表示,它是否与该定义匹配;
  3. 该属性是否符合业务规则
    • 简单规则,如最大/最小值;
    • 更复杂的规则,例如对日常价值变化的限制;
    • 跨一组值的聚合规则;
  4. 跨属性规则,其中值取决于其他属性的值;
  5. 如果它存储在多个地方,是否一致;
  6. 是正确的价值。
  7. 项目1-5 可以自动化(例如,如果您正在使用数据库或定制的DQ包,则使用SQL)。最后一项可能依赖于抽样(因为您可能会传递所有规则,但只有错误的值)。

    使用框架的技术元素评估数据后,也可能存在另一个“治理”角度,例如:数据质量论坛,评估不合规元素的影响,确定其优先级,跟踪补救,发布详细信息等。

答案 1 :(得分:0)

我考虑的六个数据质量度量标准是-准确性,完整性,完整性,准确性,有效性和及时性。我最近在https://www.eageranalyst.com/blog/2019/2/27/data-quality-beyond-accuracy-and-completeness

上完成了一篇文章,介绍了一些高级测试方法

准确性

找到一个外部可信数据源进行验证,如果没有可用的数据源,请找到可以比较的代理。例如,您可能无法将单个交易与另一个来源进行比较,但也许可以将它们与合计的总值或当日结束值进行比较。

完整度

如果您具有唯一的ID或参考键,请检查该键是否有多个记录以标识重复值。

如果您有外部真相来源,请将您的ID /参考密钥与该来源进行核对,以识别缺失的值或多余的值。

如果您具有校验和或控制总数,请确认您的数据集具有相同记录和计算的多个记录。

为确保列完整性,请确定哪些列不应缺少值,并分析那些列中缺少数据的记录。

如果您没有参考号,请考虑其他可以用作代理的信息,以指示您的数据是已报告还是已报告不足。例如,每天的交易量,一个月或每个用户的交易总值。

如果您没有参考号,请考虑可以使用哪些属性组合来识别数据中的重复项。例如,电子邮件地址,实际地址或电话号码与姓名或出生日期配对。

完整性

尝试获取提供的所有数据的数据字典,以便清楚地说明每列应包含的内容。跨源比较这些定义。

如果有两个来源,请比较两个来源之间的属性,以识别潜在的遗漏或不准确之处,并定义您认为哪个是该数据的权威来源。

精度

检查您拥有的值-它们是否围绕特定的值聚集,这可能表明它们已被舍入为较小的水平?

请清楚说明您对记录值具有特定精度水平的原因。您需要什么精度的计算?

有效期

在需要分类值的地方,请检查数据是否属于这些类别。

如果需要显示某些字段,请检查是否已填充。

对于自由文本字段,请分析字段长度以查找已记录伪数据的实例。

及时性

在关键信息字段中查找到期日期或最后更新日期。诸如联系信息之类的事情将不可避免地随着时间而改变。

检查上一次刷新或准备报告的时间。