标签: python apache-spark pyspark rdd
我有一些数据格式如下pipelineRDD:
pipelineRDD
[('x1', [('x2',1), ('x3',2),('x4',3),('x5',4)]),('x2',[('x1',3),('x4',3)])]
我想过滤每个键的值列表,以便只为每个键选择值列表中的前5个值。
如何通过collect()来实现这一目标?
collect()