我有2000个分区,我正在尝试运行以下代码片段:
var app = require('express')();
var http = require('http').Server(app);
此代码段的每个变体都会失败,并显示以下内容:l = df.rdd.mapPartitionsWithIndex(lambda x,it: [(x,sum(1 for _ in it))]).collect()
。我不知道这是什么意思。为了可靠地打印每个分区的长度,我需要做什么?我正在用Python编写并针对Spark 2.3.0执行。
答案 0 :(得分:0)
使用这样的东西
rdd.mapPartitionsWithIndex(lambda x,y: (x, len(list(y))))