AvroStorage - 输出文件名定义

时间:2016-01-19 15:39:46

标签: hadoop apache-pig cloudera

我使用AvroStorage来存储猪的结果集。有没有办法如何将数据存储到一个指定的avro文件中...例如OutputFileGen1? Pig将数据存储到名为OutpuFileGen1的目录中,其结构如下所示:

 ls -al  OutputFileGen1/
total 20
drwxr-xr-x 2 root root 4096 2016-01-18 14:35 .
drwxr-xr-x 6 root root 4096 2016-01-19 10:27 ..
-rw-r--r-- 1 root root 4083 2016-01-18 14:35 part-m-00000.avro
-rw-r--r-- 1 root root   40 2016-01-18 14:35 .part-m-00000.avro.crc
-rw-r--r-- 1 root root    0 2016-01-18 14:35 _SUCCESS
-rw-r--r-- 1 root root    8 2016-01-18 14:35 ._SUCCESS.crc

谢谢

1 个答案:

答案 0 :(得分:1)

pig输出目录中的部件数量取决于您的作业执行的并行任务数量。这里只有一个文件:part-m-00000。

http://pig.apache.org/docs/r0.8.1/cookbook.html#Use+the+Parallel+Features

但也许你想要一个单独的文件,所以如果你想获得这个文件,我建议使用hadoop fs -getmerge <src dir> <target dir>命令,在本地文件系统中获取文件,以便使用它包含的数据