我有一个社交网络的数据集,包含有关如何遵循的信息 我需要找到最活跃的用户(例如最重要的用户) 我的数据集行像是吼叫
1000066:262792,273106,590979,1152305,1691577,1888250
其中一些就像这些
1000073:private
1000069:notfound
问题1:如何使所有rdd对的密钥成为第一个用'分隔的数字的任何行的rdd:'用'和#39;分隔的价值和价值 问题2: 我怎么能用graphx解决这个问题? 我只需要在此数据集中找到最活跃的用户 在此先感谢,回答任何这些也将有所帮助
答案 0 :(得分:1)
Q1。您可以创建(user, followers)
在map函数中,将RDD的每一行传递给:
def createTuple(s: String) = {
val kv = s.split(":")
val user = kv(0)
val followers = kv(1).split(",")
val count = followers.length
(user, followers, count)
}