将文本文件(包含页面)加载到模式中,而没有任何分隔符

时间:2015-03-06 16:41:07

标签: hadoop mapreduce apache-pig

我的文本文件包含许多没有任何分隔符的页面。页面包含一些页眉和页脚以及列下的数据。页面没有相同的列数。 但优点是文件的第一行是相同的。 我想试试这个PIG。当我加载文件。它将每行读作元组。

 A = LOAD '/user/test_500.txt';
 B = GROUP A ALL;
 C = FOREACH B GENERATE CustomUDF(A);

我需要帮助编写自定义UDF并将它们加载到模式中。

供您参考,请找到文本文件。 (无法上传图片),它们之间有很多空格

 1Report Number: RXXXX  Detail******    Page:1

 Source prgm: XXX Sheet date: xx/xx/xxxx

 Job:YYYYYY  ***** Current Date: xx/xx/xxxx

 0ACCOUNT NO    ACCOUNTABLE PARTY    TC-TS     TRADE DATE    SHARES                   AS OF NAV PRICE          CURRENT PRICE

 -----------   -------------------  -------   ----------    ------------ ---------   ---------------------    --------------------

 ALPHA CODE    CUM DISC  PLAN ID    RC        BATCH  NO     GAIN(+) /LOSS(-)         AS OF NAV AMOUNT         CURRENT AMOUNT

 -----------   -------------------  -------   ----------    ------------ ---------   ---------------------    --------------------

 EXTERNAL NO             DEALER NO            REP NO        CONTROL NO

 ******* Data for each column in 3 lines ********

 <FOOTER> Total Count: ************

提前感谢您的帮助。

0 个答案:

没有答案