我继承了一段Scala代码,它使用奇怪的方法将数据插入Phoenix HBase表。它打开JDBC连接并对目标执行UPSERT语句。然后它获得一个' UncommittedDataIterator'并且在回滚事务之前从连接句柄累积...某些东西。收集的数据被汇编到Spark RDD中,最终写入一个hfile,而hfile又被批量加载到目标表。
我的问题是:这种逻辑的基本原理是什么?我在哪里可以找到它的连贯解释?我至少找到了另一种对这种方法的参考,但没有归属于它。如果在任何地方记录或解释这个成语,将会很感激链接。