Question

我必须根据resultdate字段中的日期和小时对表格进行分区，格式为2/5/2013 9:24:00 AM。

我正在使用带日期和时间的动态分区小时和做一个

insert overwrite table partition(date, hour)
{
select x,y,z, date , hour
}
from table 1.

我有大约150万条记录，大约需要4小时才能完成。这是正常的，优化的方法是什么？

Answer 1

增加群集大小，否则需要很长时间。

Answer 2

这不正常，除非您在具有1个节点的虚拟机中工作:)。尝试设置此标志

set hive.optimize.sort.dynamic.partition=false;

我不确定为什么在某些发行版中默认设置为true。

Answer 3

有很多种情况，