我正在使用Pyspark 2.3.0
。我想知道是否有适用于此pyspark版本的hbase连接器。我想从hbase读写数据帧。我尝试了一个stackoverflow成员的以下建议:
How to connect HBase and Spark using Python?
但是我收到了无法散列的dict错误。我只有一栏可以插入以及进行读写。
请有人帮我解决这个问题,对我会有所帮助。
以下是我正在使用的代码:
catalog = ‘ ‘.join({{{“table”:{“namespace”:”default”,”name”:”table_name”},”row_key”:”HBASE_ROW_KEY”,”columns”:{“Row_key”:{“cf”:”test”,”col”:”Row_key”}}}}}.split())
df.write.options(catalog=catalog).format(data_source_format).save()
data_source_format= ‘org.apache.spark.sql.execution.datasources.hbase’
我正在动态传递row_key
和column_value
值。