如何读取HBase表作为pyspark数据帧?

时间:2017-10-05 13:18:08

标签: pyspark hbase

是否可以直接将Hbase表作为Pyspark Dataframes读取而不使用Hive或Phoenix或Hortonworks提供的spark-Hbase连接器?

我对Hbase比较陌生,找不到直接的Python示例来将Hbase表转换为Pyspark数据帧。我看到的大多数例子都是Scala或Java。

1 个答案:

答案 0 :(得分:0)

您可以通过凤凰城连接HBase。示例代码可以是:
df=sqlContext.read.format('jdbc').options(driver="org.apache.phoenix.jdbc.PhoenixDriver",url='jdbc:phoenix:url:port:/hbase-unsecure',dbtable='table_name').load()

您可能需要获得spark phoenix连接器罐:phoenix-spark-4.7.0-HBase-1.1.jarphoenix-4.7.0-HBase-1.1-client.jar。感谢