我有一张名为" analytics"在hive中,它有近5TB的数据,超过10000个分区。现在我想将表重命名为analytics_backup。所以我使用了命令,
将表格分析重命名为analytics_backup。它在终端中挂了30-45分钟,然后抛出了内存不足的错误。
有没有人注意到这种问题以及解决这个问题的任何解决方案。 我正在使用CDH3 Hadoop / Hive版本。提前谢谢。
答案 0 :(得分:1)
您可以修改hive-env.sh以增加配置单元客户端的堆大小。 export HADOOP_HEAPSIZE=___
是您想要的设置。
我不知道为什么;不过,在处理许多分区之前,我已经看到了内存问题。重命名中的一些步骤可能是尝试将所有分区信息加载到内存中。
此外,如果您只想要备份,那么在文件级别执行此操作可能更容易,只需在hdfs上自行移动数据。