我的数据文件格式如下:
U: john
T: 2011-03-03 12:12:12
L: san diego, CA
U: john
T: 2011-03-03 12:12:12
L: san diego, CA
阅读此文件的最佳方法是什么/ Hadoop / pig /用于分析?
答案 0 :(得分:1)
有什么办法可以控制数据的写入方式吗?编写将其移动到制表符分隔的进程将有助于您开箱即用。
否则,编写自定义记录阅读器(在Pig或Java MapReduce中)可能是您唯一的选择。两者都不是很难。