标签: apache-spark elasticsearch apache-spark-sql cloudera
我在HBase数据库中拥有数十亿行。我正在编写一个Spark作业,它根据日期范围有效地从Hbase中提取数据,并将该数据推送到弹性搜索批量索引。我正在使用带有JavaHBaseContext spark SQL的hbase-spark连接器和数据帧来获取数据。后来我将这些数据分批推送到elasticsearch进行索引。
我首先遇到性能问题,从Hbase获取数据然后索引并将数据推送到elasticsearch。请让我知道我应该如何有效地执行上述操作。
P.S:Hbase由S3中的数据支持