如何在Pig中读取Sequence pipe分隔数据格式

时间:2014-05-08 12:43:17

标签: hadoop apache-pig

我有输入数据格式:

1 | 0.12202410112390383 | 9ac56489-5580-4057-9ec3-3d118d9dad01 |测试

保存为序列文件。

我想阅读此文件,将其转换为文本格式,并仅使用两个字段进行处理。所以我的代码应该是这样的:

REGISTER piggybank.jar

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

AA = load '/user/hdfs/input/*' using SequenceFileLoader() as (id:chararray, propability:chararray, userId:chararray, text:chararray);

AA = foreach AA generate userId, text;

store AA into '/output8' using PigStorage();

但是在输出中我看到AA包含管道分隔格式。

有什么建议吗?

0 个答案:

没有答案