猪脚本新纪录

时间:2014-09-12 09:28:07

标签: apache-pig latin

我正在处理文件中的邮件数据.. (data source:infochimps)

Message-ID: <33025919.1075857594206.JavaMail.evans@thyme> Date: Wed, 13 Dec 2000 13:09:00 -0800 (PST) From: john.arnold@enron.com To: slafontaine@globalp.com Subject: re:spreads Mime-Version: 1.0 Content-Type: text/plain; charset=us-ascii Content-Transfer-Encoding: 7bit X-From: John Arnold X-To: slafontaine@globalp.com @ ENRON X-cc: X-bcc: X-Folder: \John_Arnold_Dec2000\Notes Folders\'sent mail X-Origin: Arnold-J X-FileName: Jarnold.nsf

看到很多公牛出售夏季对抗前方的长度以缓解 边际/绝对位置限制/ var。因为这些家伙正在起飞 前面,他们也在回购夏天。 el paso明年冬天的大买家 今天取消点差。当然,差价是如此强大的原因 在路上和现在这样的一块。真的是唯一一个有风险的人 内置的高级版现在是h / j。在访问时交易相当于180, 今天早上40多点。当然,如果我们进入看跌期间

.....................]

我将以上数据加载为: -

A = load '/root/test/enron_mail/maildir/*/*/*' using PigStorage(':') as (f1:chararray,f2:chararray);

但是对于邮件正文我正在获取单独的元组,因为邮件正文包含新行..

如何将最后一行合并为一个? 我想在单个元组中使用以下部分:

看到很多公牛出售夏季对抗前方的长度以缓解 边际/绝对位置限制/ var。因为这些家伙正在起飞 前面,他们也在回购夏天。 el paso明年冬天的大买家 今天取消点差。当然,差价是如此强大的原因 在路上和现在这样的一块。真的是唯一一个有风险的人 内置的高级版现在是h / j。在访问时交易相当于180, 今天早上40多点。当然,如果我们进入看跌期间

0 个答案:

没有答案