我正在尝试找到一种解决方案,以使用Spark Streaming从HBASE表读取数据并将数据写入另一个HBASE表。
我在互联网上发现了许多示例,这些示例要求创建一个DSTREAM来从HDFS文件以及所有文件中获取数据。但是我找不到任何示例来从HBASE表中获取数据
例如,如果我有一个HBASE表“ SAMPLE”,其列为“名称”和“ activeStatus”。如何使用Spark Streaming(新数据?)从基于activeStatus列的SAMPLE表中检索数据?
欢迎使用火花流从HBASE表中检索数据的任何示例。
关于, Adarsh K S
答案 0 :(得分:1)
您可以通过多种方式从spark连接到hbase
Hortonworks SHC使用用户定义的方法将hbase直接读取到数据帧 目录,而hbase-rdd将其读取为rdd并可以转换为DF 使用toDF方法。 hbase-rdd具有批量写入选项(直接写入HFiles),首选用于海量数据写入。
答案 1 :(得分:0)
您需要的是一个允许spark与hbase交互的库。 Horton Works的shc
就是这样的扩展名: