如何将键值rdd转换为只有PySpark中的值列表的rdd?
假设rdd有(key1,“这是一个测试”)和(key2,“今天是星期天),我想把这个rdd转换成一个rdd(”这是一个测试“,”今天是星期天) “)
键值对是user_id和tweets,我想首先对推文进行标记,然后报告每个标记的计数。然后对特定用户组执行相同操作。全部在PySpark。
答案 0 :(得分:0)
您要找的是values
关于其他步骤,请发布数据样本和所需的输出。
> rdd = sc.parallelize([("key1", "this is a test"), ("key2", "today is Sunday")])
> print rdd.values().collect()
['这是测试','今天是星期天']