应用错误收集

时间：2018-12-11 09:11:27

标签： scala apache-spark hbase spark-streaming

我正在尝试找到一种解决方案，以使用Spark Streaming从HBASE表读取数据并将数据写入另一个HBASE表。

我在互联网上发现了许多示例，这些示例要求创建一个DSTREAM来从HDFS文件以及所有文件中获取数据。但是我找不到任何示例来从HBASE表中获取数据

例如，如果我有一个HBASE表“ SAMPLE”，其列为“名称”和“ activeStatus”。如何使用Spark Streaming（新数据？）从基于activeStatus列的SAMPLE表中检索数据？

欢迎使用火花流从HBASE表中检索数据的任何示例。

关于， Adarsh K S

答案 0 :(得分：1)

您可以通过多种方式从spark连接到hbase

Hortonworks SHC使用用户定义的方法将hbase直接读取到数据帧目录，而hbase-rdd将其读取为rdd并可以转换为DF 使用toDF方法。 hbase-rdd具有批量写入选项（直接写入HFiles），首选用于海量数据写入。

答案 1 :(得分：0)

您需要的是一个允许spark与hbase交互的库。 Horton Works的shc就是这样的扩展名：