我在文件名(QWERTY_123,POIUY_029等)中有标准前缀,它们始终具有相同的分隔符。 QWERTY - >,POIUY - &gt ;;我开发了一个带有前缀并告诉分隔符的udf。现在如何读取pig中的文件名,以便从文件名中拆分前缀并获取分隔符以正确加载文件。
答案 0 :(得分:0)
在PigStorage
语句中使用LOAD
条款,如this post第2项所述。它会将文件名作为每个记录中的第一个字段:
A = LOAD 'input' using PigStorage(',','-tagsource');
B = foreach A generate $0 as input_filename;