我正在处理文件中的邮件数据.. (data source:infochimps)
Message-ID: <33025919.1075857594206.JavaMail.evans@thyme>
Date: Wed, 13 Dec 2000 13:09:00 -0800 (PST)
From: john.arnold@enron.com
To: slafontaine@globalp.com
Subject: re:spreads
Mime-Version: 1.0
Content-Type: text/plain; charset=us-ascii
Content-Transfer-Encoding: 7bit
X-From: John Arnold
X-To: slafontaine@globalp.com @ ENRON
X-cc:
X-bcc:
X-Folder: \John_Arnold_Dec2000\Notes Folders\'sent mail
X-Origin: Arnold-J
X-FileName: Jarnold.nsf
.....................]
我将以上数据加载为: -
A = load '/root/test/enron_mail/maildir/*/*/*' using PigStorage(':') as (f1:chararray,f2:chararray);
但是对于邮件正文我正在获取单独的元组,因为邮件正文包含新行..
如何将最后一行合并为一个? 我想在单个元组中使用以下部分:
看到很多公牛出售夏季对抗前方的长度以缓解 边际/绝对位置限制/ var。因为这些家伙正在起飞 前面,他们也在回购夏天。 el paso明年冬天的大买家 今天取消点差。当然,差价是如此强大的原因 在路上和现在这样的一块。真的是唯一一个有风险的人 内置的高级版现在是h / j。在访问时交易相当于180, 今天早上40多点。当然,如果我们进入看跌期间