需要Sqoop和TDCH-Teradata Connector for Hadoop之间的详细区别。 Teradata推荐用作源和hadoop作为目标? 我们需要实现不同类型的加载,例如Incremental,History和Append
答案 0 :(得分:0)
TDCH支持hive,HCatalog,但不支持所有文件格式:仅支持TextFile,SequenceFile和RCFile。
现在,几乎所有hadoop发行版都添加了sqoop Teradata连接器,因此您可以使用TDCH不支持的所有sqoop功能(增量,历史,附加等):
cloudera-connector-for-teradata
four-step-strategy-incremental-updates-hive
MapR-teradata-connector-hadoop-yarn
编辑:根据Dev的输入从原始答案中删除此行:
对于Teradata作为来源,你必须使用TDCH,sqoop不能直接支持Teradata。
答案 1 :(得分:0)
Teradata没有主键概念,而是使用主索引(PI)或唯一主索引(UPI),它们用于TD AMP中的数据分发目的
因此,当您使用带有映射器数量的sqoop或按列分割时,我们将不会使用 fastexport 实用程序的TD功能。
在sqoop中,即使你提到带有 -m 参数的50个映射器,当数据导出到HDFS时,所有数据都将驻留在单个部件文件中。
因此,为了利用TD和HDFS分布,我们必须使用TDCH jar,同时将数据从TD导出到HDFS。