我有一个奇怪的问题,似乎当我使用Spark phoenix从HBase获取数据时
val rdd = sc.phoenixTableAsRDD(tableName, allColumns, zkUrl = Some(hostPort).map(tupleToObject)
我得到了一张带有所有记录的RDD,但是很少有一些非主要的关键字段被评定(看起来像是ramdomly)。如果我用简单的Phoenix客户端查询这些记录,我发现这些字段实际上是有价值的。
Example:
rdd.foreach(x => {
println("Field A -> " + x._1) //not a primary key value
println("Field B -> " + x._2) //not a primary key value
})
Output:
Field A 2
Field B 3
Field A null
Field B 4
Field A null
Field B null
我缺少什么? Apache Phoenix是否可能无法保证数据的一致性