答案是肯定的,垃圾收集器的Spark UI中显示的执行是总执行时间的一部分。如果您的GC花费的时间比实际执行时间长,那么最好检查一下您正在做什么。
如果您在使用GC时遇到任何问题,可以使用大量解决方案来改善Spark或GC管理的内存使用情况。
据Databricks博客称,GC执行时间是任何使用GB内存执行任务的大公司的递归问题:
例如,垃圾收集需要很长时间,导致程序长时间延迟,甚至在严重情况下崩溃。
您可以看到全文here。
您可以看到的其他内容是如何改进或调整您的spark应用程序,以避免GC执行时间,GC Overhead Limit甚至执行期间的OOM错误。
请查看this部分文档。