我是一名ETL开发人员,他使用不同的ETL任务工具。同样的问题在我们所有的项目中都有所提升:数据分析在构建数据仓库之前以及在为数据移动构建ETL之前的重要性。通常我使用纯SQL进行数据分析(即查找错误数据,数据异常,计数,不同值等),因为ETL工具不能为这些提供良好的替代方案(我们的工具中有一些数据质量组件,但它们是不那么复杂)。一种选择是使用R programming language或SPSS Modeler等类型的工具来实现此类Exploratory Data Analysis。但是,如果有数百万行数据,通常这些工具不可用或不符合条件。
如何使用SQL进行此类分析?有没有可用的帮助脚本?在数据清理和ETL之前,您如何进行这种探索性数据分析?
答案 0 :(得分:2)
将数据加载到某个临时系统中,并使用SSIS中的Data Profiler任务。使用此链接http://gowdhamand.wordpress.com/2012/07/27/data-profiling-task-in-ssis/验证数据分析方式。希望这会有所帮助。
答案 1 :(得分:0)
我找到了一个很好的工具:Datacleaner。这似乎是我想要在EDA过程中处理数据的大部分内容。