Question

我正在使用TDCH将数据从Teradata提取到使用TDCH的hadoop集群。在TDCH我使用分离放大器选项。我有120安培Teradata系统，在我的TDCH脚本中我定义了30个映射器。所以每个人都会从4 AMP中提取数据。我得到的信息如下： -

'Select "NAME" ,"ADRESS" FROM FROM tdampcopy(ON "TABLENAME" USING AMPList(136,137,138,139)) AS THCALIAS1 .

它创建了30个查询，包含30个会话ID。当它们在Teradata System上运行时，它会导致偏斜，因为在每个查询中只有4安培被调用，而DBA正在查杀这些查询。关于我们如何克服这一点的任何指示。

Answer 1

尝试使用split.by.hash，就像使用split.by.amp一样，您需要一个分布均匀且偏斜度低的表格。如果您的表中的数据在所有AMP中分布不均，则性能将受到严重影响。

Split.by.hash应该为您解决此问题。