如何防止Apache Pig输出空文件?

时间:2018-07-13 16:51:08

标签: apache-pig

我有一个Pig脚本,可以从HDFS上的目录读取数据。数据存储为avro文件。文件结构如下:

DIR--
   --Subdir1
   --Subdir2
   --Subdir3
   --Subdir4

在Pig脚本中,我只是在进行加载,过滤和存储。看起来像:

items = LOAD path USING AvroStorage()
items = FILTER items BY some property
STORE items into outputDirectory using AvroStorage()

现在的问题是Pig在输出目录中输出许多空文件。我想知道是否有删除这些文件的方法?谢谢!

1 个答案:

答案 0 :(得分:3)

对于Pig版本0.13和更高版本,可以设置pig.output.lazy = true以避免创建空文件。 (https://issues.apache.org/jira/browse/PIG-3299