使用pig按日期时间列存储数据组

时间:2015-04-19 08:13:09

标签: mapreduce apache-pig

假设我有这样的数据集

1, 3, 2015-03-25 11-15-13
1, 4, 2015-03-26 11-16-14
1, 4, 2015-03-25 11-16-15
1, 5, 2015-03-27 11-17-11
...

我想按日期时间存储数据

所以我将拥有以下输出文件夹

2015-03-25/
2015-03-26/
2015-03-27/
...

如何与猪一起做?

谢谢

1 个答案:

答案 0 :(得分:0)

您可以使用MultiStorage

使用FOREACH GENERATE创建一个包含您感兴趣的日期部分的列,然后使用

STORE X INTO '/my/home/output' USING MultiStorage('/my/home/output','2');