我有一个文件,我试图加载到用snappy压缩的猪。我在grunt中设置配置选项,如this jira issue中所述,但我仍然在结果中获取压缩数据。
当我运行这份工作时,它确实说: org.apache.hadoop.io.compress.snappy.LoadSnappy - 可以使用Snappy本地库
我的工作很简单 a =使用PigStorage()作为(x,y,z)加载'/ path / to / snappy / file'
然后:
转储数据
将输出压缩数据。
有谁知道我能做些什么才能正确读取数据?提前谢谢。
答案 0 :(得分:1)
PigStorage使用PigTextInputFormat作为输入,它将检测并使用Snappy压缩文件,但文件必须具有hadoop正确的扩展名,hadoop压缩编解码器工厂才能知道使用snappy。
我的猜测是你的文件没有.snappy扩展名,请尝试重命名文件并重试