我遇到需要将记录插入特定Hive表的情况。
其中一列需要是一个自动递增的序列号(必须在任何时间点严格遵循[max.value + 1]规则)。
记录从许多并行的Hive作业插入到这个特定的表中,这些作业分批运行 - 每天,每周,每月。
现在,我有这些问题:
org.apache.hadoop.hive.contrib.udf.UDFRowSequence(http://svn.apache.org/repos/asf/hive/trunk/contrib/src/java/org/apache/hadoop/hive/contrib/udf/UDFRowSequence.java)是否正确 选择?
如何使其成为线程安全,因为并行作业也是如此 参与插入记录?
注意:我偶然发现了这个有用的帖子(hive auto increment after certain number),但我不得不提出一个新的帖子,因为(1)该问题的答案已被接受,因此可能会失去注意力社区和(2)我的情况包括线程安全的序列号生成。