我正在从Kafka读取数据(json字符串),解析它以转换为具有给定模式的数据集,并对该数据集的属性执行聚合。我希望在将数据集转换为json字符串后将其存储在hbase中。做这个的最好方式是什么? 样本数据集:
id|name|age
1 |geet|21
我的密钥在hbase中的预期输出:
{"id":"1","name":"geet","age":"21"}
答案 0 :(得分:2)
Spark不为HBASE提供接收器。您可以尝试Hortonworks提供的spark-hbase连接器。否则你可以循环遍历RDD / DF / DS,如下所示,
hbaseout.forEachPartition { record =>
record.ForEach {
//hbase write code goes here
}
}
答案 1 :(得分:1)
这样做的最佳方式是什么?
请注意Hbase connector仅在您使用Hortonworks发布时才可用。
我给出一般例子(除了你的json)
按照以下example of SparkOnHbase代码和foreachPartition
将json以所需格式存储到hbase中。
package org.apache.hadoop.hbase.spark.example.rdd
import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.hbase.{TableName, HBaseConfiguration}
import org.apache.hadoop.hbase.spark.HBaseContext
import org.apache.hadoop.hbase.spark.HBaseRDDFunctions._
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.{SparkContext, SparkConf}
/**
* This is a simple example of using the foreachPartition
* method with a HBase connection
*/
object HBaseForeachPartitionExample {
def main(args: Array[String]) {
if (args.length < 2) {
println("HBaseBulkPutExample {tableName} {columnFamily}")
return
}
val tableName = args(0)
val columnFamily = args(1)
val sparkConf = new SparkConf().setAppName("HBaseBulkPutExample " +
tableName + " " + columnFamily)
val sc = new SparkContext(sparkConf)
try {
//[(Array[Byte], Array[(Array[Byte], Array[Byte], Array[Byte])])]
val rdd = sc.parallelize(Array(
(Bytes.toBytes("1"),
Array((Bytes.toBytes(columnFamily), Bytes.toBytes("1"), Bytes.toBytes("1")))),
(Bytes.toBytes("2"),
Array((Bytes.toBytes(columnFamily), Bytes.toBytes("1"), Bytes.toBytes("2")))),
(Bytes.toBytes("3"),
Array((Bytes.toBytes(columnFamily), Bytes.toBytes("1"), Bytes.toBytes("3")))),
(Bytes.toBytes("4"),
Array((Bytes.toBytes(columnFamily), Bytes.toBytes("1"), Bytes.toBytes("4")))),
(Bytes.toBytes("5"),
Array((Bytes.toBytes(columnFamily), Bytes.toBytes("1"), Bytes.toBytes("5"))))
))
val conf = HBaseConfiguration.create()
val hbaseContext = new HBaseContext(sc, conf)
rdd.hbaseForeachPartition(hbaseContext,
(it, connection) => {
val m = connection.getBufferedMutator(TableName.valueOf(tableName))
it.foreach(r => {
val put = new Put(r._1)
r._2.foreach((putValue) =>
put.addColumn(putValue._1, putValue._2, putValue._3))
m.mutate(put)
})
m.flush()
m.close()
})
} finally {
sc.stop()
}
}
}
答案 2 :(得分:0)
您可以将结果数据写回另一个Kafka主题,然后使用https://github.com/landoop/stream-reactor处提供的Cassandra Kafka Connector将该数据写入Cassandra