有人可以帮我定义数据质量框架来分析某种数据吗?只是对它应该做什么的高级描述?只是你的想法。
答案 0 :(得分:0)
答案取决于您感兴趣的背景(例如,支持特定领域或使用特定技术)......希望这些高级笔记有一些用处。
因此,鉴于对数据做出的决策假定该数据的质量水平 - 例如,使用汇总的“管理信息”制定战略决策,或者用于自动化处理 - 那么数据质量框架可能会考虑评估针对若干措施的数据,以便了解对数据质量的信任程度。
实际上,可以评估每个数据属性的可测量事物:
项目1-5 可以自动化(例如,如果您正在使用数据库或定制的DQ包,则使用SQL)。最后一项可能依赖于抽样(因为您可能会传递所有规则,但只有错误的值)。
使用框架的技术元素评估数据后,也可能存在另一个“治理”角度,例如:数据质量论坛,评估不合规元素的影响,确定其优先级,跟踪补救,发布详细信息等。
答案 1 :(得分:0)
我考虑的六个数据质量度量标准是-准确性,完整性,完整性,准确性,有效性和及时性。我最近在https://www.eageranalyst.com/blog/2019/2/27/data-quality-beyond-accuracy-and-completeness
上完成了一篇文章,介绍了一些高级测试方法准确性
找到一个外部可信数据源进行验证,如果没有可用的数据源,请找到可以比较的代理。例如,您可能无法将单个交易与另一个来源进行比较,但也许可以将它们与合计的总值或当日结束值进行比较。
完整度
如果您具有唯一的ID或参考键,请检查该键是否有多个记录以标识重复值。
如果您有外部真相来源,请将您的ID /参考密钥与该来源进行核对,以识别缺失的值或多余的值。
如果您具有校验和或控制总数,请确认您的数据集具有相同记录和计算的多个记录。
为确保列完整性,请确定哪些列不应缺少值,并分析那些列中缺少数据的记录。
如果您没有参考号,请考虑其他可以用作代理的信息,以指示您的数据是已报告还是已报告不足。例如,每天的交易量,一个月或每个用户的交易总值。
如果您没有参考号,请考虑可以使用哪些属性组合来识别数据中的重复项。例如,电子邮件地址,实际地址或电话号码与姓名或出生日期配对。
完整性
尝试获取提供的所有数据的数据字典,以便清楚地说明每列应包含的内容。跨源比较这些定义。
如果有两个来源,请比较两个来源之间的属性,以识别潜在的遗漏或不准确之处,并定义您认为哪个是该数据的权威来源。
精度
检查您拥有的值-它们是否围绕特定的值聚集,这可能表明它们已被舍入为较小的水平?
请清楚说明您对记录值具有特定精度水平的原因。您需要什么精度的计算?
有效期
在需要分类值的地方,请检查数据是否属于这些类别。
如果需要显示某些字段,请检查是否已填充。
对于自由文本字段,请分析字段长度以查找已记录伪数据的实例。
及时性
在关键信息字段中查找到期日期或最后更新日期。诸如联系信息之类的事情将不可避免地随着时间而改变。
检查上一次刷新或准备报告的时间。