Question

我目前正试图在Google DataProc上的Spark 2.0.0中对大型数据集（30 mio观察，13个变量）运行ml决策树。当我执行：

labelIndexer = StringIndexer(inputCol="Target", outputCol="indexedLabel").fit(data)

我收到以下错误：

IllegalArgumentException：u＆＃39;要求失败：初始容量无效＆＃39;

我在互联网上找不到关于此错误的大量信息。有人可以解释一下问题是什么以及如何解决它？

Answer 1

错误是由于输入数据帧（数据）已定义但为空。