我知道ETL代表Extract,Transform和Load数据到新的目标数据库。但它在什么范围内仍被视为ETL?例如,如果我想将具有7000条记录的联系人数据库移动到CRM软件中,此过程是否也算作ETL?
答案 0 :(得分:1)
ETL代表数据的提取,转换,加载阶段。从数据源中提取,将提取的数据转换为LOAD并将其转换为目标数据源。
每当你在一个地方进行EXTRACT并在另一个地方加载时,你的过程仍会进入ETL。在每种情况下,ETL可能不涉及TRANSFORM,它是直接数据加载。大多数情况下,会有TRANSFORM到数据以适应目标环境/架构。
回答你的问题,是的。您的记录加载属于ETL的范围。但是,在您的情况下,它没有TRANSFORM阶段。
答案 1 :(得分:0)
如Venkataraman R所述,您没有转换阶段,因此您的工作不能真正视为ETL。
通常,转换部分将包含某种数据映射(例如,标准化国家代码或提取国家代码USA-> US; TUR-> TR)。除了进行许多查找验证和映射外,您还可以进行一些常规的清理工作,例如删除不良数据,适当的格式(例如标题大写),<如果是数据仓库,则为strong>键。在准备机器学习培训的情况下,您还可以进行输入,合并和归一化。但是我认为最重要的是删除重复项,因为它可能会引起汇总问题。
如果您将现有数据中的一组新数据导出为汇总形式,则也被视为转换。这意味着您可以以某种方式将数据分组在一起(SUM / AVG / MAX),以便当工具使用数据时,它不再需要自行执行聚合,从而将计算和带宽需求降至最低。