我几乎没有问题:
1)How to Use both Scala and Python in a same Spark project?
我知道我们可以使用管道运算符来启动一个不同的进程来运行python命令,但问题是在工作节点上它们不是同一个jvm的一部分,而是一个可能使工作者崩溃的子进程。 我是否正确,如果是的话,有任何建议可以解决这个问题吗?如果我使用hdfs进行写入和回读,则会使处理成本更高。
2)我有很多用python编写的模型,我们希望使用spark运行这些模型而不需要在集群上更改(非常imp)并获得可伸缩性。在scala中编写自定义框架时我应该考虑哪个方向来做到这一点。
Python在群集上的扩展性不高,而scala具有上述子流程问题。
欢迎任何建议。