我正在使用TDCH将数据从Teradata提取到使用TDCH的hadoop集群。 在TDCH我使用分离放大器选项。我有120安培Teradata系统,在我的TDCH脚本中我定义了30个映射器。所以每个人都会从4 AMP中提取数据。我得到的信息如下: -
'Select "NAME" ,"ADRESS" FROM FROM tdampcopy(ON "TABLENAME" USING AMPList(136,137,138,139)) AS THCALIAS1 .
它创建了30个查询,包含30个会话ID。当它们在Teradata System上运行时,它会导致偏斜,因为在每个查询中只有4安培被调用,而DBA正在查杀这些查询。关于我们如何克服这一点的任何指示。
答案 0 :(得分:0)
尝试使用split.by.hash
,就像使用split.by.amp
一样,您需要一个分布均匀且偏斜度低的表格。如果您的表中的数据在所有AMP中分布不均,则性能将受到严重影响。
Split.by.hash
应该为您解决此问题。