Sqoop vs Informatica数据采购大数据版

时间:2015-07-01 12:23:53

标签: hadoop hive sqoop informatica-powercenter

我可以选择使用Sqoop或Informatica Big Data版本将数据导入HDFS。源系统是Tearadata,Oracle。

我想知道哪一个更好,以及背后的原因。

注意: 我当前的实用程序能够使用sqoop将数据提取到HDFS,创建Hive登台表和归档外部表。

Informatica是组织中使用的ETL工具。

此致 Sanjeeb

4 个答案:

答案 0 :(得分:2)

<强> Sqoop

  • Sqoop能够从Oracle / Teradata执行完全和增量加载。
  • Sqoop从源系统进行数据的并行复制。
  • Sqoop脚本可以由Oozie自定义生成和安排。
  • 任何规模群集的开源解决方案。没有许可证费用。

<强> Informatica的

  • ETL行业中用于管理映射的最佳界面。
  • 不提供并行复制选项。为并行处理提供Hive模式。基本上将转换转换为Hive查询以便执行。还支持下推以生成MR代码。
  • 每个节点的许可成本。如果您计划500个Hadoop节点用于将来的数据存储,则在扩展群集时,与50个节点群集相比,需要支付10倍。
  • Informatica BDE是市场上相对较新的产品。 INFA Developer对于处理大数据非常有用。支持Informatica上所有最新的Hadoop平台功能,以及Informatica BDE中的序列生成,状态映射,会话,查找转换等传统RDBMS功能存在挑战。
  • Informatica MDM不支持Hadoop。

如果价格是决策的标准,请选择Sqoop。如果你想利用切换Hadoop plaftorm工具的灵活性,可以使用Sqoop(Sqoop项目也考虑移动Spark)。 如果您出于某种原因与Informatica绑定,请转到Informatica。但是大多数Informatica开发人员都希望转向Hadoop技术。

答案 1 :(得分:1)

虽然这是在一年前提出的,但在Informatica中分享了新功能

Informatica BDM 10.1版支持Sqoop连接,即您可以使用Sqoop从RDBMS读取数据并将其加载到Hadoop / Hive

此外,BDM版本10.2中有许多新功能,尤其是开发人员工具和动态映射中的参数化支持。

答案 2 :(得分:0)

工具与手动编码一直存在。 Informatica工具提供了更易于维护的企业级解决方案。

BDM 10.1.1支持带有spark引擎的sqoop。此版本支持Spark 2.0.1,因此性能非常好。 BDM 10.2刚刚发布了新功能,如早期版本中缺少有状态变量支持。

答案 3 :(得分:0)

SQOOP必须用于数据交换。您有很多选项可以获得最佳性能。此外,如果您尝试在RDBMS(Teradata / Oracle)之间交换数据&lt; - &gt; Informatica&lt; - &gt;然后,Hadoop集群首先需要将数据带到Informatica Server,这可能涉及额外的I / O.

如果必须在配置单元内完成数据处理,则必须使用Informatica BDE。