如何使用Spark流使用Scala从HBASE表获取数据

时间:2018-12-11 09:11:27

标签: scala apache-spark hbase spark-streaming

我正在尝试找到一种解决方案,以使用Spark Streaming从HBASE表读取数据并将数据写入另一个HBASE表。

我在互联网上发现了许多示例,这些示例要求创建一个DSTREAM来从HDFS文件以及所有文件中获取数据。但是我找不到任何示例来从HBASE表中获取数据

例如,如果我有一个HBASE表“ SAMPLE”,其列为“名称”和“ activeStatus”。如何使用Spark Streaming(新数据?)从基于activeStatus列的SAMPLE表中检索数据?

欢迎使用火花流从HBASE表中检索数据的任何示例。

关于, Adarsh K S

2 个答案:

答案 0 :(得分:1)

您可以通过多种方式从spark连接到hbase

Hortonworks SHC使用用户定义的方法将hbase直接读取到数据帧    目录,而hbase-rdd将其读取为rdd并可以转换为DF    使用toDF方法。 hbase-rdd具有批量写入选项(直接写入HFiles),首选用于海量数据写入。

答案 1 :(得分:0)

您需要的是一个允许spark与hbase交互的库。 Horton Works的shc就是这样的扩展名:

https://github.com/hortonworks-spark/shc