将键值rdd转换为仅包含值列表{rdd}的值

时间:2018-05-20 20:42:39

标签: python-3.x apache-spark pyspark rdd

如何将键值rdd转换为只有PySpark中的值列表的rdd?

假设rdd有(key1,“这是一个测试”)和(key2,“今天是星期天),我想把这个rdd转换成一个rdd(”这是一个测试“,”今天是星期天) “)

键值对是user_id和tweets,我想首先对推文进行标记,然后报告每个标记的计数。然后对特定用户组执行相同操作。全部在PySpark。

1 个答案:

答案 0 :(得分:0)

您要找的是values

关于其他步骤,请发布数据样本和所需的输出。

> rdd = sc.parallelize([("key1", "this is a test"), ("key2", "today is Sunday")])
> print rdd.values().collect()
  

['这是测试','今天是星期天']