标签: java apache-spark hadoop hbase cloudera
我想编写一个在两个环境之间同步HBase表的工具。 该工具应从第二个群集读取数据,并根据时间戳更新表。
我在版本1.2.0-cdh5.12.1中使用hbase-client 和Spark版本:2.4.0-cdh6.1.1
我知道copyTable(带有时间戳参数)Mapreduce解决方案,但它似乎很慢。
谁能告诉我是否可以通过使用Spark框架来加快处理速度?