HBase表上的SparkSQL

时间:2016-09-16 11:58:12

标签: apache-spark hbase apache-spark-sql

任何人都直接在HBase表上使用SparkSQL,就像Hive表上的SparkSQL一样。 我是spark.Nelease的新手。请指导我如何连接hbase和spark。如何查询hbase表。

1 个答案:

答案 0 :(得分:6)

AFAIK有两种方法可以连接到hbase表

- 直接连接到Hbase:

直接连接hbase并从DataFrame创建RDD并在其上执行SQL。 我不打算重新发明轮子,请参阅How to read from hbase using spark 正如@iMKanchwala在上述链接中的答案已经描述过的那样。唯一的事情是将其转换为数据帧(使用toDF)并遵循sql方法。

- 使用hbase存储处理程序将表注册为hive外部表,您可以在hivecontext上使用hive on spark。这也很简单。

Ex : 
CREATE TABLE users(
userid int, name string, email string, notes string)
STORED BY 
'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
WITH SERDEPROPERTIES ( 
"hbase.columns.mapping" = 
”small:name,small:email,large:notes”);

如何操作请参阅example

我更喜欢方法1.

希望有帮助...