我们目前使用Datastage ETL - 每天导出包含15个表(3种不同模式)数据的CSV /文本文件。
我想知道如果使用ETL有一种更简单的方法来实现这一点。我试过Scriptella。它看起来很简单/快速,但它又是一个ETL。请建议..
答案 0 :(得分:11)
我们使用Python。每种编程语言 - 每一种都曾发明过 - 都是ETL的替代品。
您从不需要 ETL。
问题是:
构建哪个更便宜?自定义软件或ETL的配置?
维持运营哪个更便宜?
哪种更容易适应不断变化的要求?
答案 1 :(得分:1)
为什么不使用免费且易于使用的ETL工具,例如expressor Studio。您可以在http://www.expressorstudio.com下载。
答案 2 :(得分:0)
我的2美分。
Datastage是一个糟糕的工具,许可证价格昂贵。
SSIS更简单,或者cloverETL很好。
ETL工具与代码是一个很好的问题。
ETL工具通常具有更好的性能,因为可以将数据排队准备好使用 编程的目的是一次一个地做这个,数据存储可以并行完成(但我认为它会打击)。 PLus ETL工具可以从多个异构源获取数据,而您可以(轻松地)使用代码执行此操作。
但是,如果要对同一服务器上的数据进行任何数据转换等,我通常最终会在SQL / TSQL(或PL / SQL)中尽可能多地执行,因为它只需要更容易调试/保持。主键/外键是您的朋友,可以通过稍后检查计数来检查任何错过的查找,以确保数据的完整性。
答案 3 :(得分:0)
绝对可以在没有ETL工具帮助的情况下执行ETL。 例如:我们可以开发python脚本,也可以使用Drift之类的开放源代码来使用它。
答案 4 :(得分:0)
您不需要为此使用ETL工具。您可以使用python执行所有任务,直接从CSVs / XMLs /文本文件中提取数据,转换数据(识别数据类型,空值转换)并加载到表中。 https://towardsdatascience.com/python-etl-tools-best-8-options-5ef731e70b49