我们正在使用Cloudera作为我们的hadoop环境。
有人可以提供任何有关如何将现有的实木复合地板/黑斑羚集成或迁移到kudu /黑斑羚的指导,以期对我们现有的管道进行性能改进吗?
在这里简要介绍了我们现有的管道:
我们以csv / xlsx格式接收数据;
我们将它们移至HDFS;
我们将它们以镶木地板的格式保存到另一个位置;
我们在impala中创建外部表,该表的位置指向分区的镶木地板数据;
我们在pyspark,spark scala,spark sql中进行ETL工作;
我们将分析结果输出到csv。
现有管道正在按预期运行,但是,由于数据保持持续增长,管道所需的时间/资源也会增加。
我们想知道将镶木地板的黑斑羚迁移到基于Kudu的黑斑羚以获得更好的整体性能的最佳实践是什么吗?
非常感谢您。