火花scala和python相互关联

时间:2017-06-06 17:26:23

标签: python-2.7 scala apache-spark pyspark

我几乎没有问题:

1)How to Use both Scala and Python in a same Spark project?

我知道我们可以使用管道运算符来启动一个不同的进程来运行python命令,但问题是在工作节点上它们不是同一个jvm的一部分,而是一个可能使工作者崩溃的子进程。 我是否正确,如果是的话,有任何建议可以解决这个问题吗?如果我使用hdfs进行写入和回读,则会使处理成本更高。

2)我有很多用python编写的模型,我们希望使用spark运行这些模型而不需要在集群上更改(非常imp)并获得可伸缩性。在scala中编写自定义框架时我应该考虑哪个方向来做到这一点。

Python在群集上的扩展性不高,而scala具有上述子流程问题。

欢迎任何建议。

0 个答案:

没有答案