应用错误收集

在pyspark中只获取列表的前5项

时间：2017-03-12 00:38:21

标签： python apache-spark pyspark rdd

我有一些数据格式如下pipelineRDD：

所示

[('x1', [('x2',1), ('x3',2),('x4',3),('x5',4)]),('x2',[('x1',3),('x4',3)])]

我想过滤每个键的值列表，以便只为每个键选择值列表中的前5个值。

如何通过collect()来实现这一目标？

0 个答案:

没有答案