apache-spark - Spark HiveContext vs HbaseContext？ - Thinbug

Spark HiveContext vs HbaseContext？

时间：2018-03-05 13:25:07

标签： apache-spark hivecontext

我有一个大小为10 PB的数据集。我当前的数据位于 HBase ，我使用Spark HbaseContext，但效果不佳。

在Spark上将数据从HbaseContext移动到HiveContext是否有用？

2 个答案:

答案 0 :(得分：0)

HiveContext用于从Hive读取数据。因此，如果切换到HiveContext，则数据必须位于Hive中。我认为您的尝试不会奏效。

答案 1 :(得分：0)

在我的用例中，我将mapPartition与内部的HBase连接一起使用。关键是要知道如何拆分。

对于扫描，您可以创建自己的扫描仪，前缀等... 为了得到它甚至更加容易。对于看跌期权，您可以创建一份看跌期权清单，然后批量插入。

我不使用任何HBaseContext，并且在12亿行的数据库上具有相当不错的性能。