数据整理和ETL(提取,转换和加载)之间有什么区别?

时间:2019-11-08 02:23:12

标签: apache-spark etl data-science

我对ETL的基本理解是像Data Analyst这样的人会使用它。 ETL将用于从数据库(MySQL)提取数据,转换为类似Excel的数据,其中应用了业务规则(Excel函数),然后将其加载到另一个应用程序的新数据库中。当谈到这与数据争用有何不同时,我感到非常困惑。从我收集到的信息来看,只有几处不同。 1,使用技术的人是不同的。数据整理可能是数据工程师与ETL和数据分析师之间的工作。 2,所用技术不同。数据整理将使用Apache Spark或Hadoop生态系统之类的东西。 ETL将使用Excel,Access或云数据库之类的工具来提取数据。从本质上讲,我的理解是数据处理是对原始数据进行“ ETL处理”,这意味着尚未对数据进行建模-(它不在架构中)。 (也许您在争吵时可能不得不分析诸如转发,喜欢和收藏等之类的数据)?只是好奇我是否在赛道上。我尝试阅读一些文章,但对我来说仍然没有意义。谁能提供一个简单的解释,以便我可以围绕这个概念着迷?谢谢。

1 个答案:

答案 0 :(得分:0)

数据整理是转换/清理从源流向目标的数据的过程。有多种方法可以进行此转换或清理:-

“小型”数据集

对于可以在excel中打开的小型数据集,可以通过宏等在excel中定义清除规则的转换。如果要重复执行此操作,可以构建bat(windows)或shell(linux )脚本,并通过cron或Windows计划程序安排它们。

一个简单的示例是将NULL替换为大小为10 MB的文件中的某个值

“中”数据集

当数据集大小无法在excel中打开时,您可以使用脚本或编程语言执行相同的操作,并使用上述示例中的调度程序进行调度。此类脚本语言通常在单台计算机上运行,​​并且性能与计算机的配置成正比

一个简单的示例是将NULL替换为大小为10 GB的文件中的某个值

“大型”数据集

当数据集很大时,无法在excel中打开,并且在一台计算机上运行清理规则可能会很慢。这就是Big Data技术(例如Map reduce,Spark等)的亮点,其中子集的数据被发送到多台计算机,并且清理规则应用于子集上的每台计算机,从而提高了整个处理的吞吐量。

一个简单的示例是将NULL替换为500 GB文件中的某个值