小文件与大文件可提高外部表的性能

时间:2018-07-04 01:51:30

标签: greenplum external-tables

我最近实际上正在使用Greenplum外部表,对此感到好奇:

将外部表的数据分配到大量的小文件(小于100KB)而不是几个大文件(可能数十到数百MB)之间是否存在性能差异?

除了性能方面,还有其他区别吗?

1 个答案:

答案 0 :(得分:0)

用于读取:如果文件较小,则可以使用多个gpfdist阅读器并行读取文件,可能是从ETL主机上的多个文件系统或I / O通道读取。 编写时:您需要创建多个外部表,每个文件名一个。那会炸毁您的目录。