PHOENIX SPARK - BulkLoad的DataFrame

时间:2016-05-18 05:36:06

标签: apache-spark dataframe phoenix

由于Spark Job,我有1亿条记录要插入到HBase表(PHOENIX)中。我想知道如果我将它转换为Dataframe并保存它,它是否会批量加载(或)它不是将数据写入Phoenix HBase表的有效方法

1 个答案:

答案 0 :(得分:2)

来自:Josh Mahonin

日期:2016年5月18日星期三下午10:29

主题:回复:PHOENIX SPARK - BulkLoad的DataFrame

致:user@phoenix.apache.org

您好,

Spark集成使用Phoenix MapReduce框架,该框架将这些框架转换为分布在众多工作人员中的UPSERT。

您应该尝试这两种方法,看看哪种方法最适合您的用例。对于它的价值,我们通常使用Spark集成对这些数据大小进行加载/保存操作。