Sqoop导入配置单元ORC

时间:2017-04-25 22:45:18

标签: hive

所有

我对sqooping有疑问,我正在为一个表大约2tb的数据进行sqooping,然后需要编写ORC表。实现目标的最佳途径

1)将dir1中的所有数据作为文本sqoop并写入HQL以加载到ORC表中,其中脚本因顶点问题而失败

2)chucks和process中的sqoop数据并附加到hive表中(你做过这个吗?)

3)sqoop hive导入将所有数据写入hive ORC表

哪种方式最好?

1 个答案:

答案 0 :(得分:0)

选项三会更好,因为你不需要创建一个hive表并再次将数据加载到它中并以orc格式存储这些数据对于2tb的数据来说这是一个很长的过程因此它更好地给予sqoop所以它可以直接使用orc格式将数据推送到hive表中但是当你从hive表返回数据到rdbms时你必须使用sqoopserde