如何验证方案?
情景1:
源文件是包含数百万个数据的平面文件。 源文件中的所有数据都将加载到数据库中的目标表。
现在的问题是如何验证所有数据是否正确加载到目标表中?
注意:我们不能使用xls进行验证,因为我们有数百万条记录。
答案 0 :(得分:1)
有很多方法可以验证数据。其中很大程度上取决于三件事:
您需要多长时间进行验证?
您的处理能力是什么?
QA或生产SQL服务器上的数据是?
如果您处于质量保证并具有很强的处理能力,您可以进行基本检查:
如果您的处理能力较低或者在生产服务器上并且不希望冒险降低其他用户的性能,则可以使用simple random sample执行上述许多检查。比方说,一次取100,000行。或者,如果需要,将其分层。
这些只是你可以做的一些检查。越多的比较和理智检查,你就越好。
最重要的是,将这些调查结果和任何传达给文件所有者看起来很奇怪。他们应该能够让您更好地了解数据加载是否正确,或者如果他们甚至在第一时间给你正确的文件。
您正在加载数据并提供尽可能多的合理检查。如果他们对结果感到满意,并且您对结果感到满意,那么您应该认为数据有效。
答案 1 :(得分:0)
我认为最完整的解决方案是将表导出回第二个平面文件,该文件应与第一个相同,然后编写一个逐行进行差异检查的脚本。您将能够看到是否只有一行不同。
鉴于您正在迁移数百万行数据,我假设一夜之间运行脚本对数据完整性来说不是一件大事。
为了快速验证,您可以检查行数是否相同,并且没有明显错误的数据,例如列映射错误或整个列为空。
答案 2 :(得分:0)
我不是从文件导出的专家,但如果我应该解决这个问题,我会遵循这样的事情。
TableA
中,没有任何限制,因此导入过程运行正常。TableB
。类型,字符串长度,FK。TableA
移至TableB
Errors
,您可以在其中插入row_id
和err_description