所有
我对sqooping有疑问,我正在为一个表大约2tb的数据进行sqooping,然后需要编写ORC表。实现目标的最佳途径
1)将dir1中的所有数据作为文本sqoop并写入HQL以加载到ORC表中,其中脚本因顶点问题而失败
2)chucks和process中的sqoop数据并附加到hive表中(你做过这个吗?)
3)sqoop hive导入将所有数据写入hive ORC表
哪种方式最好?
答案 0 :(得分:0)
选项三会更好,因为你不需要创建一个hive表并再次将数据加载到它中并以orc格式存储这些数据对于2tb的数据来说这是一个很长的过程因此它更好地给予sqoop所以它可以直接使用orc格式将数据推送到hive表中但是当你从hive表返回数据到rdbms时你必须使用sqoopserde