我是PIG和大数据的新手。我刚刚遇到一个场景:来自Excel文件的数据被复制到一个简单的文本文件中,导致混乱。所以现在,我们需要使用PIG脚本过滤/优化文本文件的数据。我们甚至可以这样做吗?如果可以,我们如何将数据分类为格式良好的文件?
样本是,
InvoiceNo StockCode Description Quantity InvoiceDate UnitPrice CustomerID Country
536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 6 2010-12-01 8:26 2.55 17850 United Kingdom
536365 71053 WHITE METAL LANTERN 6 2010-12-01 8:26 3.39 17850 United Kingdom
像这样我们在文本文件中有多条记录。 非常感谢。