我一直在尝试从Teradata DB到Hive的2TB表上进行sqoop导入。这是我正在尝试的全表导入。在后台生成的查询非常简单,选择:
SELECT A, B, C FROM TABLE WHERE (A>=0) AND (A<100000);
范围取决于列的最小值,最大值以及我在sqoop查询中提供的映射器数量。
问题可能不是特定于sqoop,但因为它在活动中使用,我也在这里标记它。这是Teradata DB中的虚拟空间,它可以满载并达到令人震惊的8 TB。该表几乎不是2 TB,而占用的阀芯达到8。
我真的不确定在Teradata数据库背景中发生的事情是线轴高达这么高。有没有人知道后台实际发生了什么,以及解决方法?
感谢。