假设我有这样的数据集
1, 3, 2015-03-25 11-15-13
1, 4, 2015-03-26 11-16-14
1, 4, 2015-03-25 11-16-15
1, 5, 2015-03-27 11-17-11
...
我想按日期时间存储数据
所以我将拥有以下输出文件夹
2015-03-25/
2015-03-26/
2015-03-27/
...
如何与猪一起做?
谢谢
答案 0 :(得分:0)
您可以使用MultiStorage。
使用FOREACH GENERATE
创建一个包含您感兴趣的日期部分的列,然后使用
STORE X INTO '/my/home/output' USING MultiStorage('/my/home/output','2');