我的文本文件包含许多没有任何分隔符的页面。页面包含一些页眉和页脚以及列下的数据。页面没有相同的列数。 但优点是文件的第一行是相同的。 我想试试这个PIG。当我加载文件。它将每行读作元组。
A = LOAD '/user/test_500.txt';
B = GROUP A ALL;
C = FOREACH B GENERATE CustomUDF(A);
我需要帮助编写自定义UDF并将它们加载到模式中。
供您参考,请找到文本文件。 (无法上传图片),它们之间有很多空格
1Report Number: RXXXX Detail****** Page:1
Source prgm: XXX Sheet date: xx/xx/xxxx
Job:YYYYYY ***** Current Date: xx/xx/xxxx
0ACCOUNT NO ACCOUNTABLE PARTY TC-TS TRADE DATE SHARES AS OF NAV PRICE CURRENT PRICE
----------- ------------------- ------- ---------- ------------ --------- --------------------- --------------------
ALPHA CODE CUM DISC PLAN ID RC BATCH NO GAIN(+) /LOSS(-) AS OF NAV AMOUNT CURRENT AMOUNT
----------- ------------------- ------- ---------- ------------ --------- --------------------- --------------------
EXTERNAL NO DEALER NO REP NO CONTROL NO
******* Data for each column in 3 lines ********
<FOOTER> Total Count: ************
提前感谢您的帮助。