我对ETL的基本理解是像Data Analyst这样的人会使用它。 ETL将用于从数据库（MySQL）提取数据，转换为类似Excel的数据，其中应用了业务规则（Excel函数），然后将其加载到另一个应用程序的新数据库中。当谈到这与数据争用有何不同时，我感到非常困惑。从我收集到的信息来看，只有几处不同。 1，使用技术的人是不同的。数据整理可能是数据工程师与ETL和数据分析师之间的工作。 2，所用技术不同。数据整理将使用Apache Spark或Hadoop生态系统之类的东西。 ETL将使用Excel，Access或云数据库之类的工具来提取数据。从本质上讲，我的理解是数据处理是对原始数据进行“ ETL处理”，这意味着尚未对数据进行建模-（它不在架构中）。（也许您在争吵时可能不得不分析诸如转发，喜欢和收藏等之类的数据）？只是好奇我是否在赛道上。我尝试阅读一些文章，但对我来说仍然没有意义。谁能提供一个简单的解释，以便我可以围绕这个概念着迷？谢谢。

数据整理是转换/清理从源流向目标的数据的过程。有多种方法可以进行此转换或清理：-

“小型”数据集

对于可以在excel中打开的小型数据集，可以通过宏等在excel中定义清除规则的转换。如果要重复执行此操作，可以构建bat（windows）或shell（linux ）脚本，并通过cron或Windows计划程序安排它们。

一个简单的示例是将NULL替换为大小为10 MB的文件中的某个值

“中”数据集

当数据集大小无法在excel中打开时，您可以使用脚本或编程语言执行相同的操作，并使用上述示例中的调度程序进行调度。此类脚本语言通常在单台计算机上运行，并且性能与计算机的配置成正比

一个简单的示例是将NULL替换为大小为10 GB的文件中的某个值

“大型”数据集

当数据集很大时，无法在excel中打开，并且在一台计算机上运行清理规则可能会很慢。这就是Big Data技术（例如Map reduce，Spark等）的亮点，其中子集的数据被发送到多台计算机，并且清理规则应用于子集上的每台计算机，从而提高了整个处理的吞吐量。

一个简单的示例是将NULL替换为500 GB文件中的某个值

数据整理和ETL（提取，转换和加载）之间有什么区别？

1 个答案:

“小型”数据集

“中”数据集

“大型”数据集