使用HBase进行Spark

时间:2019-02-07 19:24:43

标签: pyspark hbase pyspark-sql

我正在使用Pyspark 2.3.0。我想知道是否有适用于此pyspark版本的hbase连接器。我想从hbase读写数据帧。我尝试了一个stackoverflow成员的以下建议:

How to connect HBase and Spark using Python?

但是我收到了无法散列的dict错误。我只有一栏可以插入以及进行读写。

请有人帮我解决这个问题,对我会有所帮助。

以下是我正在使用的代码:

catalog = ‘ ‘.join({{{“table”:{“namespace”:”default”,”name”:”table_name”},”row_key”:”HBASE_ROW_KEY”,”columns”:{“Row_key”:{“cf”:”test”,”col”:”Row_key”}}}}}.split())

df.write.options(catalog=catalog).format(data_source_format).save()

data_source_format= ‘org.apache.spark.sql.execution.datasources.hbase’

我正在动态传递row_keycolumn_value值。

0 个答案:

没有答案