用Scala编写的Spark应用程序中嵌入的python代码的性能问题

时间:2018-07-25 18:34:47

标签: python apache-spark jepp

我运行用scala编写的spark应用程序。 我需要在spark应用程序中运行python代码。 我无法用python重写整个框架。我决定使用Java嵌入式Python Jep。 我开始逐行运行python脚本。 也就是说,对于RDD中的每个元素,我将调用RDD.runscript。这不是很好的性能明智的选择。 我的新方法是在分区的基础上调用runscript方法。 我遇到的问题是明显的内存问题。

0 个答案:

没有答案