apache-spark - Spark：一般的通用最佳实践＆＃34;内存不足＆＃34;错误？

避免使用GroupByKey
不要将大型RDD的所有元素复制到驱动程序
优雅地处理错误的输入数据
当Spark通过网络传输数据时，需要将对象序列化为二进制形式。当混洗或需要传输大量数据的其他操作时，这会对性能产生影响。为了改善这种情况，首先要确保您的代码以最小化可能发生的混洗量的方式编写（例如，仅使用groupByKey作为最后的手段，而是更喜欢使用reduceByKey这样的操作来执行聚合作为就地尽可能）。其次，考虑一下使用Kryo而不是java.io.Serializable作为对象，因为它更紧凑二进制表示比标准Java序列化程序，并且压缩或解压缩也更快。为了进一步提高性能，特别是在处理数十亿个对象时，可以在启动时使用Kryo序列化程序注册类，从而节省更多宝贵的字节。
对于较大的数据集（> 200Gb），JVM Spark运行中的垃圾收集可能会成为性能问题。通常，通过默认的ParallelGC切换到G1 GC最终会更高效。但是，根据数据集和应用程序的详细信息，将需要进行一些调整。

除上述内容外，