我有一个大小为10 PB的数据集。我当前的数据位于 HBase ,我使用Spark HbaseContext
,但效果不佳。
在Spark上将数据从HbaseContext
移动到HiveContext
是否有用?
答案 0 :(得分:0)
HiveContext用于从Hive读取数据。因此,如果切换到HiveContext,则数据必须位于Hive中。我认为您的尝试不会奏效。
答案 1 :(得分:0)
在我的用例中,我将mapPartition与内部的HBase连接一起使用。关键是要知道如何拆分。
对于扫描,您可以创建自己的扫描仪,前缀等... 为了得到它甚至更加容易。 对于看跌期权,您可以创建一份看跌期权清单,然后批量插入。
我不使用任何HBaseContext,并且在12亿行的数据库上具有相当不错的性能。