我可以选择使用Sqoop或Informatica Big Data版本将数据导入HDFS。源系统是Tearadata,Oracle。
我想知道哪一个更好,以及背后的原因。
注意: 我当前的实用程序能够使用sqoop将数据提取到HDFS,创建Hive登台表和归档外部表。
Informatica是组织中使用的ETL工具。
此致 Sanjeeb
答案 0 :(得分:2)
<强> Sqoop 强>
<强> Informatica的强>
如果价格是决策的标准,请选择Sqoop。如果你想利用切换Hadoop plaftorm工具的灵活性,可以使用Sqoop(Sqoop项目也考虑移动Spark)。 如果您出于某种原因与Informatica绑定,请转到Informatica。但是大多数Informatica开发人员都希望转向Hadoop技术。
答案 1 :(得分:1)
虽然这是在一年前提出的,但在Informatica中分享了新功能
Informatica BDM 10.1版支持Sqoop连接,即您可以使用Sqoop从RDBMS读取数据并将其加载到Hadoop / Hive
此外,BDM版本10.2中有许多新功能,尤其是开发人员工具和动态映射中的参数化支持。
答案 2 :(得分:0)
工具与手动编码一直存在。 Informatica工具提供了更易于维护的企业级解决方案。
BDM 10.1.1支持带有spark引擎的sqoop。此版本支持Spark 2.0.1,因此性能非常好。 BDM 10.2刚刚发布了新功能,如早期版本中缺少有状态变量支持。
答案 3 :(得分:0)
SQOOP必须用于数据交换。您有很多选项可以获得最佳性能。此外,如果您尝试在RDBMS(Teradata / Oracle)之间交换数据&lt; - &gt; Informatica&lt; - &gt;然后,Hadoop集群首先需要将数据带到Informatica Server,这可能涉及额外的I / O.
如果必须在配置单元内完成数据处理,则必须使用Informatica BDE。