我有输入数据格式:
1 | 0.12202410112390383 | 9ac56489-5580-4057-9ec3-3d118d9dad01 |测试
保存为序列文件。
我想阅读此文件,将其转换为文本格式,并仅使用两个字段进行处理。所以我的代码应该是这样的:
REGISTER piggybank.jar
DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();
AA = load '/user/hdfs/input/*' using SequenceFileLoader() as (id:chararray, propability:chararray, userId:chararray, text:chararray);
AA = foreach AA generate userId, text;
store AA into '/output8' using PigStorage();
但是在输出中我看到AA包含管道分隔格式。
有什么建议吗?