我有一个Pig脚本,可以从HDFS上的目录读取数据。数据存储为avro文件。文件结构如下:
DIR--
--Subdir1
--Subdir2
--Subdir3
--Subdir4
在Pig脚本中,我只是在进行加载,过滤和存储。看起来像:
items = LOAD path USING AvroStorage()
items = FILTER items BY some property
STORE items into outputDirectory using AvroStorage()
现在的问题是Pig在输出目录中输出许多空文件。我想知道是否有删除这些文件的方法?谢谢!
答案 0 :(得分:3)
对于Pig版本0.13和更高版本,可以设置pig.output.lazy = true以避免创建空文件。 (https://issues.apache.org/jira/browse/PIG-3299)