从Apache Pig中的数据派生FileName

时间:2013-02-12 18:36:43

标签: hadoop apache-pig

我正在处理我想将猪脚本中的数据存储到文件中的情况。这样做非常简单,但我希望从数据本身派生文件名。所以,我在数据中有一个字段作为时间戳。我想使用说MAX(时间戳)作为文件名来存储当天的所有数据。

我知道的用法 存储数据INTO'$ outputDir'使用org.apache.pig.piggybank.storage.MultiStorage('$ outputDir','2','none',',');

但是这个变量“outputDir应该作为参数传递。我想用该字段的派生值设置这个值。

任何指针都会非常有用。

谢谢&的问候,

Atul Aggarwal

1 个答案:

答案 0 :(得分:0)

在MultiStorage中指定根目录,因为许多用户通常共享HDFS安装,因此您不希望在任何地方写入数据。因此,您无法更改根目录,但可以指定在该目录中使用哪个字段来生成目录名称(在您的情况下为2)。 Javadoc很有帮助,但我猜你已经看过了吗?