为什么我从Hbase获取火花读数数据的记录较少

时间:2015-08-03 18:37:32

标签: apache-spark hbase pyspark

我正在使用spark(python中的代码)从Hbase表读取数据,我在Hbase中有200K记录,但Spark只读取了138条记录。我仔细检查了我的代码,但仍然无法找到问题。我想在此处复制代码段:

 confRead = {
            "hbase.zookeeper.quorum": "196.0.0.2:2181",
            "hbase.mapreduce.inputtable": "testTable",
            "hbase.mapreduce.scan.columns":"cf1:raw64"
            }

 keyConvRead = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"
 valueConvRead = "org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter"

 hbase_rdd = sc.newAPIHadoopRDD(
        "org.apache.hadoop.hbase.mapreduce.TableInputFormat",
        "org.apache.hadoop.hbase.io.ImmutableBytesWritable",
        "org.apache.hadoop.hbase.client.Result",
        keyConverter=keyConvRead,
        valueConverter=valueConvRead,
        conf=confRead)
 hbaseRDD = hbase_rdd.map(download_Analize)

需要提一下,raw64列真的很大,大约1M-20M字节,它是用base64编码的,还有同一列族cf1中的其他一些小列,实际上我只有列族。在此先感谢!

0 个答案:

没有答案