hadoop - 使用PIG读取混乱的文本文件

我是PIG和大数据的新手。我刚刚遇到一个场景：来自Excel文件的数据被复制到一个简单的文本文件中，导致混乱。所以现在，我们需要使用PIG脚本过滤/优化文本文件的数据。我们甚至可以这样做吗？如果可以，我们如何将数据分类为格式良好的文件？

样本是，

InvoiceNo   StockCode   Description Quantity    InvoiceDate UnitPrice   CustomerID  Country
536365  85123A  WHITE HANGING HEART T-LIGHT HOLDER  6   2010-12-01 8:26 2.55    17850   United Kingdom
536365  71053   WHITE METAL LANTERN 6   2010-12-01 8:26 3.39    17850   United Kingdom

像这样我们在文本文件中有多条记录。非常感谢。

使用PIG读取混乱的文本文件

0 个答案: