Question

我有2000个分区，我正在尝试运行以下代码片段：

var app = require('express')();
var http = require('http').Server(app);

此代码段的每个变体都会失败，并显示以下内容：l = df.rdd.mapPartitionsWithIndex(lambda x,it: [(x,sum(1 for _ in it))]).collect()。我不知道这是什么意思。为了可靠地打印每个分区的长度，我需要做什么？我正在用Python编写并针对Spark 2.3.0执行。

Answer 1

使用这样的东西 rdd.mapPartitionsWithIndex(lambda x,y: (x, len(list(y))))

如何在Spark中打印每个分区的长度？

1 个答案: