使用Spark TO Elasticsearch查询FROM Hbase时的性能问题

时间:2018-05-01 06:06:30

标签: apache-spark elasticsearch apache-spark-sql cloudera

我在HBase数据库中拥有数十亿行。我正在编写一个Spark作业,它根据日期范围有效地从Hbase中提取数据,并将该数据推送到弹性搜索批量索引。我正在使用带有JavaHBaseContext spark SQL的hbase-spark连接器和数据帧来获取数据。后来我将这些数据分批推送到elasticsearch进行索引。

我首先遇到性能问题,从Hbase获取数据然后索引并将数据推送到elasticsearch。请让我知道我应该如何有效地执行上述操作。

P.S:Hbase由S3中的数据支持

0 个答案:

没有答案