在pyspark中只获取列表的前5项

时间:2017-03-12 00:38:21

标签: python apache-spark pyspark rdd

我有一些数据格式如下pipelineRDD

所示
[('x1', [('x2',1), ('x3',2),('x4',3),('x5',4)]),('x2',[('x1',3),('x4',3)])]

我想过滤每个键的值列表,以便只为每个键选择值列表中的前5个值

如何通过collect()来实现这一目标?

0 个答案:

没有答案