在Apache pig中读取压缩(.xz)文件

时间:2015-05-14 07:19:39

标签: hadoop compression apache-pig xz

我正在尝试使用pig脚本阅读使用hadoop-xz编解码器压缩的.xz文件。

我试过的示例代码是,

REGISTER hadoop-xz-1.4.jar
SET output.compression.enabled true;
SET output.compression.codec io.sensesecure.hadoop.xz.XZCodec;

msg = LOAD 'pigtest/newXZ.xz' USING PigStorage();
STORE msg INTO 'pigtest/output' USING PigStorage();
DUMP msg;

结果仍然是压缩格式。我做错了还是我必须在猪里面使用XZInputStream

运行环境是HortonWorks Sandbox 2.2(Hue)

1 个答案:

答案 0 :(得分:0)

取决于你想做什么。

您似乎想要读取XZ文件,因此我假设您需要设置输入编解码器而不是输出编解码器。

我不是PIG用户,但从我收集的内容来看,它无法轻松处理自定义压缩(例如,与Hive和Streaming不同)。