我有一份工作,我正在运行pregal算法(GraphX)。 我在节点上传输和处理的消息的格式为Vector [(Double,Long)]。这个工作成功了。 但是,如果我将其转换为Vector [(Option [Double],Option [Long])],因为有时这些值可能不存在,我想使用None而不是-1作为默认值。然后该作业无法丢失内存问题(达到GC开销)。
图表相当庞大,大约有8000万个节点,消耗了大约250个演出。 我尝试增加执行程序内存,堆分数.etc
只是几个问题
1)使用案例类是否会导致性能下降,而不是原语?
2)同样使用Scala选项会导致性能下降吗?