Spark word-Listof项目程序

时间:2016-02-01 10:30:39

标签: scala apache-spark word-count

Wordcount程序很简单,但如何根据键获取项目的单词列表。(不是计数)
让eg:
位置,项目
班加罗尔,电视
班加罗尔,移动
海得拉巴,笔记本电脑

现在我需要这样的输出: 班加罗尔,(电视,手机)
海得拉巴,笔记本电脑
它可能是Json或csv或任何格式。

1 个答案:

答案 0 :(得分:0)

Cityitems.csv:
市项目
班加罗尔,移动
班加罗尔,笔记本电脑
班加罗尔,移动
班加罗尔,桌面
海得拉巴,电磁炉
    val data = sc.textFile(“s3://path/Cityitems.csv”)。cache()
    val rows = data.map(line => line.split(“,”))

val makestructure = rows.map(name => (name(0),name(1)))

makestructure.groupByKey.collect.foreach(println)