我试图通过TDCH从Teradata提取到Hadoop。
我看到一个异常,即使我将--method
指定为任何字符串(hash, partition, amp, value
),它也会在提取过程中自动获取SplitByPartition
值。
我从Teradata中提取的表格是分区的&我直接导入hive表。我尝试提取甚至一个分区,但无法改变自动方法选择。
我可以继续这种方法,但问题是: 在提取期间,TDCH创建一个中间查询以从Teradata表中提取数据。临时存放在舞台表中。然后从此临时阶段表开始传输到Hadoop服务器。创建的此查询是100%倾斜,因此每次由于DB中的低假脱机而导致作业失败。阀芯空间非常高(10 TB)。
思想?