在我的程序中,我有一个简单的sortPartition命令,如下面的代码片段所示。它在本地群集上工作正常。
SortedData = myData.sortPartition(19, Order.ASCENDING).setParallelism(1);
我将程序提交到远程集群但是,存在问题并且执行无法完成。似乎作业一直在运行,命令永远不会结束。 我的数据集只包含300k记录和50M字节。如果我将数据集中的记录数减少到50k,则程序在远程群集上正常工作。显然,记忆在这里不是问题 我想知道,是什么导致了这样的问题以及解决问题的任何解决方案?