需要使用未提交的迭代器和回滚来解释hfile批量加载

时间:2017-10-20 18:55:24

标签: scala apache-spark hbase phoenix

我继承了一段Scala代码,它使用奇怪的方法将数据插入Phoenix HBase表。它打开JDBC连接并对目标执行UPSERT语句。然后它获得一个' UncommittedDataIterator'并且在回滚事务之前从连接句柄累积...某些东西。收集的数据被汇编到Spark RDD中,最终写入一个hfile,而hfile又被批量加载到目标表。

我的问题是:这种逻辑的基本原理是什么?我在哪里可以找到它的连贯解释?我至少找到了另一种对这种方法的参考,但没有归属于它。如果在任何地方记录或解释这个成语,将会很感激链接。

0 个答案:

没有答案