我有两个蜂巢表,其中一个(表A)取决于另一个(表B)。我计划在表B中的数据可用时自动将数据加载到表A中。外部进程每天在表B中创建一个新分区,我计划监视分区的创建,然后触发将数据加载到表B.但是,只要启动写入,hive就会创建一个分区。但是,我无法想出一种方法来监视分区上的写操作是否已经完成。我想知道是否有处理这种情况的标准方法。
有可能的解决方法,但有自己的缺点: 1.监视hdfs中分区目录的更新时间戳,如果当前时间和更新时间之间的时间差超过某个阈值,则执行该操作。 2.跟踪分区中的记录数,一旦停止增加,就执行操作。