我正在尝试学习apache pig,hadoop和朋友,现在我正在使用纽约市的门票数据。
我按以下方式加载数据:
data = load 'nyc/smallNYC.csv' USING PigStorage(',') AS
(
SummonsNumber:int,
PlateID:chararray,
RegistrationState:chararray,
PlateType:chararray,
...
StreetName:chararray
... // And a lot more
)
现在我想在这个数据集中添加两个新列(或者为每个数据集添加两个新键),一个是CleanedStreetName
(为了这个问题,我想要生成这个列使用:LOWER(StreetName)),第二列为IssueYear
。
然后,我想使用这些列过滤,分组等,我找不到任何解释如何使用这些列的指南。
以下是问题:
CleanedStreetName
列的代码段。 答案 0 :(得分:1)
在Pig中,您使用FOREACH
生成数据预测。
您没有指定如何获取IssueYear所以我只是将其指定为0
NEWDATA = FOREACH data GENERATE *,LOWER(StreetName) as CleanedStreetName, 0 as IssueYear