Spark HiveContext vs HbaseContext?

时间:2018-03-05 13:25:07

标签: apache-spark hivecontext

我有一个大小为10 PB的数据集。我当前的数据位于 HBase ,我使用Spark HbaseContext,但效果不佳。

在Spark上将数据从HbaseContext移动到HiveContext是否有用?

2 个答案:

答案 0 :(得分:0)

HiveContext用于从Hive读取数据。因此,如果切换到HiveContext,则数据必须位于Hive中。我认为您的尝试不会奏效。

答案 1 :(得分:0)

在我的用例中,我将mapPartition与内部的HBase连接一起使用。关键是要知道如何拆分。

对于扫描,您可以创建自己的扫描仪,前缀等... 为了得到它甚至更加容易。 对于看跌期权,您可以创建一份看跌期权清单,然后批量插入。

我不使用任何HBaseContext,并且在12亿行的数据库上具有相当不错的性能。