在没有文件的情况下在Pig中生成一系列值

时间:2013-12-05 15:34:17

标签: apache-pig

我正在尝试根据时间范围生成报告,并且我希望能够将事物分成不同的切片。

例如,我有一些数据,我想分组到重叠的范围(24小时的窗口,我希望在7天的时间内以小时为单位进行滑动)。

我没有看到任何方法做到这一点,如果不在外部生成一个由猪读取的文件中的时间范围。

1 个答案:

答案 0 :(得分:0)

您获得的答案非常依赖于您需要如何为JOIN格式化日期。我回答了一个类似的问题here,我们可以在这里使用相同的原则(扩展日期范围)。此外,我很确定你只需要一个空白文件作为第二个输入即可。您至少需要做一些事情FOREACH,UDF可以完成所有工作。

一旦我知道日期需要格式化,我将提供一些示例代码(如果需要)。