任何人都直接在HBase表上使用SparkSQL,就像Hive表上的SparkSQL一样。 我是spark.Nelease的新手。请指导我如何连接hbase和spark。如何查询hbase表。
答案 0 :(得分:6)
AFAIK有两种方法可以连接到hbase表
直接连接hbase并从DataFrame
创建RDD
并在其上执行SQL。
我不打算重新发明轮子,请参阅How to read from hbase using spark
正如@iMKanchwala在上述链接中的答案已经描述过的那样。唯一的事情是将其转换为数据帧(使用toDF
)并遵循sql方法。
Ex :
CREATE TABLE users(
userid int, name string, email string, notes string)
STORED BY
'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES (
"hbase.columns.mapping" =
”small:name,small:email,large:notes”);
如何操作请参阅example
我更喜欢方法1.
希望有帮助...