应用错误收集

Sqoop vs Informatica数据采购大数据版

时间：2015-07-01 12:23:53

标签： hadoop hive sqoop informatica-powercenter

我可以选择使用Sqoop或Informatica Big Data版本将数据导入HDFS。源系统是Tearadata，Oracle。

我想知道哪一个更好，以及背后的原因。

注意：我当前的实用程序能够使用sqoop将数据提取到HDFS，创建Hive登台表和归档外部表。

Informatica是组织中使用的ETL工具。

此致 Sanjeeb

4 个答案:

答案 0 :(得分：2)

<强> Sqoop

Sqoop能够从Oracle / Teradata执行完全和增量加载。
Sqoop从源系统进行数据的并行复制。
Sqoop脚本可以由Oozie自定义生成和安排。
任何规模群集的开源解决方案。没有许可证费用。

<强> Informatica的

ETL行业中用于管理映射的最佳界面。
不提供并行复制选项。为并行处理提供Hive模式。基本上将转换转换为Hive查询以便执行。还支持下推以生成MR代码。
每个节点的许可成本。如果您计划500个Hadoop节点用于将来的数据存储，则在扩展群集时，与50个节点群集相比，需要支付10倍。
Informatica BDE是市场上相对较新的产品。 INFA Developer对于处理大数据非常有用。支持Informatica上所有最新的Hadoop平台功能，以及Informatica BDE中的序列生成，状态映射，会话，查找转换等传统RDBMS功能存在挑战。
Informatica MDM不支持Hadoop。

如果价格是决策的标准，请选择Sqoop。如果你想利用切换Hadoop plaftorm工具的灵活性，可以使用Sqoop（Sqoop项目也考虑移动Spark）。如果您出于某种原因与Informatica绑定，请转到Informatica。但是大多数Informatica开发人员都希望转向Hadoop技术。

答案 1 :(得分：1)

虽然这是在一年前提出的，但在Informatica中分享了新功能

Informatica BDM 10.1版支持Sqoop连接，即您可以使用Sqoop从RDBMS读取数据并将其加载到Hadoop / Hive

此外，BDM版本10.2中有许多新功能，尤其是开发人员工具和动态映射中的参数化支持。

答案 2 :(得分：0)

工具与手动编码一直存在。 Informatica工具提供了更易于维护的企业级解决方案。

BDM 10.1.1支持带有spark引擎的sqoop。此版本支持Spark 2.0.1，因此性能非常好。 BDM 10.2刚刚发布了新功能，如早期版本中缺少有状态变量支持。

答案 3 :(得分：0)

SQOOP必须用于数据交换。您有很多选项可以获得最佳性能。此外，如果您尝试在RDBMS（Teradata / Oracle）之间交换数据＆lt; - ＆gt; Informatica＆lt; - ＆gt;然后，Hadoop集群首先需要将数据带到Informatica Server，这可能涉及额外的I / O.

如果必须在配置单元内完成数据处理，则必须使用Informatica BDE。