应用错误收集

PHOENIX SPARK - BulkLoad的DataFrame

时间：2016-05-18 05:36:06

标签： apache-spark dataframe phoenix

由于Spark Job，我有1亿条记录要插入到HBase表（PHOENIX）中。我想知道如果我将它转换为Dataframe并保存它，它是否会批量加载（或）它不是将数据写入Phoenix HBase表的有效方法

1 个答案:

答案 0 :(得分：2)

来自：Josh Mahonin

日期：2016年5月18日星期三下午10:29

主题：回复：PHOENIX SPARK - BulkLoad的DataFrame

致：user@phoenix.apache.org

您好，

Spark集成使用Phoenix MapReduce框架，该框架将这些框架转换为分布在众多工作人员中的UPSERT。

您应该尝试这两种方法，看看哪种方法最适合您的用例。对于它的价值，我们通常使用Spark集成对这些数据大小进行加载/保存操作。