使用PIG读取混乱的文本文件

时间:2017-08-30 09:58:27

标签: hadoop apache-pig bigdata

我是PIG和大数据的新手。我刚刚遇到一个场景:来自Excel文件的数据被复制到一个简单的文本文件中,导致混乱。所以现在,我们需要使用PIG脚本过滤/优化文本文件的数据。我们甚至可以这样做吗?如果可以,我们如何将数据分类为格式良好的文件?

样本是,

InvoiceNo   StockCode   Description Quantity    InvoiceDate UnitPrice   CustomerID  Country
536365  85123A  WHITE HANGING HEART T-LIGHT HOLDER  6   2010-12-01 8:26 2.55    17850   United Kingdom
536365  71053   WHITE METAL LANTERN 6   2010-12-01 8:26 3.39    17850   United Kingdom

像这样我们在文本文件中有多条记录。 非常感谢。

0 个答案:

没有答案