从Cloudera迁移基于镶木地板的黑斑羚到基于Kudu的黑斑羚的最佳实践是什么

时间:2018-12-19 15:13:03

标签: cloudera impala apache-kudu

我们正在使用Cloudera作为我们的hadoop环境。

有人可以提供任何有关如何将现有的实木复合地板/黑斑羚集成或迁移到kudu /黑斑羚的指导,以期对我们现有的管道进行性能改进吗?

在这里简要介绍了我们现有的管道:

我们以csv / xlsx格式接收数据;

  • 我们将它们移至HDFS;

  • 我们将它们以镶木地板的格式保存到另一个位置;

  • 我们在impala中创建外部表,该表的位置指向分区的镶木地板数据;

  • 我们在pyspark,spark scala,spark sql中进行ETL工作;

  • 我们将分析结果输出到csv。

现有管道正在按预期运行,但是,由于数据保持持续增长,管道所需的时间/资源也会增加。

我们想知道将镶木地板的黑斑羚迁移到基于Kudu的黑斑羚以获得更好的整体性能的最佳实践是什么吗?

非常感谢您。

0 个答案:

没有答案