我正在编写一个ETL(在带有mongodb后端的python中)并且想知道:ETL应该被称为ETL的标准函数和工具是什么?
此ETL将尽可能通用,采用可编写脚本的模块化方法。它主要用于保持不同的数据库同步,以及以不同的格式导入/导出数据集(xml和csv)我不需要任何多维工具,但它有可能在以后需要它。
答案 0 :(得分:16)
让我们暂时考虑ETL用例。
此外,还有一些额外的要求不是单一用例。
每个单独的操作都必须是一个单独的进程,可以在Unix管道中连接,各个记录在进程之间流动。这使用所有 CPU资源。
您需要某种基于时间的调度程序,以便在推理其ETL前置条件时遇到问题。
您需要一个基于事件的计划,以便能够找出ETL处理步骤的前提条件。
请注意。由于ETL是I / O绑定的,因此多线程对您没有好处。由于每个进程都运行很长时间 - 特别是如果要处理数千行数据 - “重量级”进程的开销不会受到影响。
答案 1 :(得分:4)
这是一个随机列表,没有特别的顺序:
答案 2 :(得分:0)
列名称的自动/启发式映射。例如,简单的字符串映射:
DB1:customerId
DB2:customer_id
我发现我在DTS / SSIS中完成的很多工作都可以自动生成。