哪种方法更适合数据集成

时间:2017-04-28 12:06:01

标签: python database ssis etl pentaho-spoon

我看到很多公司现在都使用python作为ETL工具。我来自PDI(Pentaho数据集成),SSIS和其他ETL工具。与上面提到的工具相比,Python提供的性能效率如何?

目前我的数据集成方法

  1. 如果Source是任何存储,如Mysql,MSSQL,Salesforce API,Google电子表格,CSV文件,Nosql DB,我更喜欢ETL工具PDI进行数据集成
  2. 如果source是任何API,如graphana,Humanity或其他API,以及脏数据源文件,如CSV,那么我更喜欢Python
  3. 我的方法是否正确?

2 个答案:

答案 0 :(得分:0)

Python,尤其是像SQLAlchemy这样的ORM,似乎可以很好地完成这项工作,其优点是可以更容易地与pandas等下游集成。

答案 1 :(得分:-1)

像jitterbit,mulesoft这样的自动化集成工具非常有用。如果没有,那么我认为python通过以类似于数据加载器的csv格式获取/存储大数据来做得更好。是的,我认为你的方法是正确的!