如何将mapreduce part-r的输出数据加载到Pig或Hive

时间:2016-05-29 00:57:20

标签: hive apache-pig

我使用以下格式从mapreduce作业中作为r部分生成数据:

(19,[2468:5.0,1894:5.0,3173:5.0,3366:5.0,3198:5.0,1407:5.0,407:5.0,1301:5.0,2153:5.0,3007:5.0])
(20,[3113:5.0,3285:5.0,3826:5.0,3755:5.0,373:5.0,3510:5.0,3300:5.0,22:5.0,1358:5.0,3273:5.0])

19和20是用户ID,[]中的数组是用户的推荐,每个推荐用逗号分隔。我想以表格格式加载这些数据 - 第1行= 19,2468,5.0,3175,第2行= 19,1894,5.0,3173等等。

如何通过Pig或Hive实现这一目标?

1 个答案:

答案 0 :(得分:0)

到目前为止,我已尝试使用Pig但无法解析以获得所需的输出。

我希望创建一个报告,我可以在其中显示用户名(通过加入用户表),为用户推荐的电影名称(通过加入电影表)和用户评级。

在上面的数据中,19是用户ID。在括号内是该用户的推荐电影ID以及评级。每条建议都以逗号分隔。