sqoop和TDCH之间的区别

时间:2016-07-22 10:25:00

标签: teradata sqoop bigdata

需要Sqoop和TDCH-Teradata Connector for Hadoop之间的详细区别。 Teradata推荐用作源和hadoop作为目标? 我们需要实现不同类型的加载,例如Incremental,History和Append

2 个答案:

答案 0 :(得分:0)

TDCH支持hive,HCatalog,但不支持所有文件格式:仅支持TextFile,SequenceFile和RCFile。

现在,几乎所有hadoop发行版都添加了sqoop Teradata连接器,因此您可以使用TDCH不支持的所有sqoop功能(增量,历史,附加等):

cloudera-connector-for-teradata

hwx-connector-for-teradata

four-step-strategy-incremental-updates-hive

MapR-teradata-connector-hadoop-yarn

IBM - biginsights

编辑:根据Dev的输入从原始答案中删除此行:

  

对于Teradata作为来源,你必须使用TDCH,sqoop不能直接支持Teradata。

答案 1 :(得分:0)

Teradata没有主键概念,而是使用主索引(PI)或唯一主索引(UPI),它们用于TD A​​MP中的数据分发目的

因此,当您使用带有映射器数量的sqoop或按列分割时,我们将不会使用 fastexport 实用程序的TD功能。

在sqoop中,即使你提到带有 -m 参数的50个映射器,当数据导出到HDFS时,所有数据都将驻留在单个部件文件中。

因此,为了利用TD和HDFS分布,我们必须使用TDCH jar,同时将数据从TD导出到HDFS。