Question

我的数据文件格式如下：

U:    john
T:    2011-03-03 12:12:12
L:    san diego, CA

U:    john
T:    2011-03-03 12:12:12
L:    san diego, CA

阅读此文件的最佳方法是什么/ Hadoop / pig /用于分析？

Answer 1

有什么办法可以控制数据的写入方式吗？编写将其移动到制表符分隔的进程将有助于您开箱即用。

否则，编写自定义记录阅读器（在Pig或Java MapReduce中）可能是您唯一的选择。两者都不是很难。