如何在数据集中添加关注者计数(最活跃的用户)

时间:2018-06-13 14:03:41

标签: scala apache-spark spark-graphx

我有一个社交网络的数据集,包含有关如何遵循的信息 我需要找到最活跃的用户(例如最重要的用户) 我的数据集行像是吼叫

 1000066:262792,273106,590979,1152305,1691577,1888250

其中一些就像这些

1000073:private
1000069:notfound

问题1:如何使所有rdd对的密钥成为第一个用'分隔的数字的任何行的rdd:'用'和#39;分隔的价值和价值 问题2: 我怎么能用graphx解决这个问题? 我只需要在此数据集中找到最活跃的用户 在此先感谢,回答任何这些也将有所帮助

1 个答案:

答案 0 :(得分:1)

Q1。您可以创建(user, followers)

的RDD元组

在map函数中,将RDD的每一行传递给:

def createTuple(s: String) = {
  val kv = s.split(":")
  val user = kv(0)
  val followers = kv(1).split(",")
  val count = followers.length

  (user, followers, count)
}