我有一个用例从pyspark作业中的HBase读取,目前正在这样的HBase表上进行扫描,
conf = {"hbase.zookeeper.quorum": host, "hbase.cluster.distributed": "true", "hbase.mapreduce.inputtable": "table_name", "hbase.mapreduce.scan.row.start": start, "hbase.mapreduce.scan.row.stop": stop}
rdd = sc.newAPIHadoopRDD("org.apache.hadoop.hbase.mapreduce.TableInputFormat", "org.apache.hadoop.hbase.io.ImmutableBytesWritable","org.apache.hadoop.hbase.client.Result", keyConverter=keyConv, valueConverter=valueConv,conf=cmdata_conf)
我无法找到在HBase表上执行GET的conf。有人能帮我吗?我发现pyspark不支持过滤器。但是不可能做一个简单的GET吗?
谢谢!