应用错误收集

我几乎没有问题：

我知道我们可以使用管道运算符来启动一个不同的进程来运行python命令，但问题是在工作节点上它们不是同一个jvm的一部分，而是一个可能使工作者崩溃的子进程。我是否正确，如果是的话，有任何建议可以解决这个问题吗？如果我使用hdfs进行写入和回读，则会使处理成本更高。

2）我有很多用python编写的模型，我们希望使用spark运行这些模型而不需要在集群上更改（非常imp）并获得可伸缩性。在scala中编写自定义框架时我应该考虑哪个方向来做到这一点。

Python在群集上的扩展性不高，而scala具有上述子流程问题。

欢迎任何建议。