应用错误收集

从Cloudera迁移基于镶木地板的黑斑羚到基于Kudu的黑斑羚的最佳实践是什么

时间：2018-12-19 15:13:03

标签： cloudera impala apache-kudu

我们正在使用Cloudera作为我们的hadoop环境。

有人可以提供任何有关如何将现有的实木复合地板/黑斑羚集成或迁移到kudu /黑斑羚的指导，以期对我们现有的管道进行性能改进吗？

在这里简要介绍了我们现有的管道：

我们以csv / xlsx格式接收数据；

我们将它们移至HDFS；
我们将它们以镶木地板的格式保存到另一个位置；
我们在impala中创建外部表，该表的位置指向分区的镶木地板数据；
我们在pyspark，spark scala，spark sql中进行ETL工作；
我们将分析结果输出到csv。

现有管道正在按预期运行，但是，由于数据保持持续增长，管道所需的时间/资源也会增加。

我们想知道将镶木地板的黑斑羚迁移到基于Kudu的黑斑羚以获得更好的整体性能的最佳实践是什么吗？

非常感谢您。

0 个答案:

没有答案