标签: apache-spark hadoop
我正在使用Spark SQL在Hadoop集群中创建表。 我的查询由于目录空间配额已满而失败。
在编写Spark sql代码以在Hadoop集群中创建较少数量的目录时,我们遵循任何常规做法吗?我进行了研究,发现了一些指示,但是并不能对其进行太多区分。
聚类 桶装 分区
有人能阐明在Hadoop集群中编写时创建更少目录的最佳技术吗?