Apache Spark / Scala批量插入/更新到HBASE

时间:2016-12-19 07:12:03

标签: scala apache-spark hbase

以下是我的情景:

  1. 最初使用 Sqoop 将数据加载到 HBASE (已完成)
  2. 现在,我将每天获得批量数据(大约600000条记录),这是新数据(用于将新记录插入HBASE)和旧数据(用于更新HBASE的现有记录)的组合。现在我的问题是:
  3. 如何使用 Spark / scala Hbase 表执行此操作。

    您的早期回复将受到高度赞赏。

    由于 Souvik

1 个答案:

答案 0 :(得分:0)

我建议您阅读this question的答案以获得概述。

在那里的my answer中,我提到了几个可以使用的选项:

由于您使用的是Spark 1.6.1,因此您可以使用它们中的任何一种。可以在here找到使用hbase-spark中的DataFrames的示例,而可以找到针对Spark-on-HBase的类似示例here