如何对RDD中的行进行分组以找到组中的最大值

时间:2019-06-14 13:26:05

标签: scala apache-spark grouping rdd

我是Spark的新手,将SPARK Shell与SCALA结合使用。我正在尝试做作业,但被卡住了。需要帮助!

我将(Movielens)数据集存储在HDFS中。数据集是半冒号分隔的。它在文本文件中,其中包含发行年份(BTW 1920年至1997年),长度,标题,主题,演员,女演员,导演,受欢迎程度得分和奖项列。

任务是输出十年中电影的标题,十年中拥有最高人气的分数及其人气分数。

一些数据集的示例记录如下:

1990; 111;把我绑起来!绑我下来!;喜剧;安东尼奥班德拉斯;维多利亚州阿布里尔;佩德罗Almod?var; 68;否; NicholasCage.png

1991; 113; High Heels; Comedy; Bos ?, Miguel; Abril,Victoria; Almod?var,Pedro; 68; No; NicholasCage.png

1983; 104; The; Dead Zone,The; Horror; Walken,Christopher; Adams,Brooke; Cronenberg,David; 79; No; NicholasCage.png

1979; 122;古巴;动作;康纳利,肖恩;亚当斯,布鲁克;莱斯特,理查德; 6;否; seanConnery.png

1978; 94; Days of Heaven; Drama; Gere,Richard; Adams,Brooke; Malick,Terrence; 14; No; NicholasCage.png

1983; 140;章鱼;动作;摩尔,罗杰;亚当斯,莫德;格伦,约翰; 68;不; NicholasCage.png

1984; 101; Target Eagle;动作; Connors,Chuck; Adams,Maud; Loma,Jos? Antonio de la; 14; No; NicholasCage.png

1989; 99;美国天使:洗礼,戏剧,戏剧,贝根,罗伯特·D。亚当斯,特鲁迪,塞巴斯蒂安·贝弗利; 28;否; NicholasCage.png

1985; 104; Subway; Drama; ChristopherLambert; IsabelleAdjani; Luc Luces; 6; No; NicholasCage.png

1990; 149; Camille Claudel; Drama; Depardieu,G?rard; Adjani,Isabelle; Nuytten,Bruno; 32; No; NicholasCage.png

我能够加载数据并能够创建RDD

var moviedata = sc.textFile("/home/hduser/Downloads/Movie_.txt")

现在如何继续处理此问题

0 个答案:

没有答案