将ETL作业迁移到Hadoop

时间:2017-11-19 16:07:00

标签: pandas hadoop hive etl

我有一组ETL(在informatica中创建)作业,我想迁移到Hadoop。我已经在hadoop环境中创建了源表和目标表。现在我可以编写一个hive查询来实现ETL的逻辑,它从源中提取数据并写入目标表。但这是一个漫长的过程,因为我的ETL作业很复杂(具有复杂的业务逻辑),这些查询的开发和测试需要更长的时间。我想知道是否有更好的方法将我的ETL代码迁移到Hadoop?我听说我们可以使用pandas数据帧而不是hive。有什么建议吗?

0 个答案:

没有答案