如何在用Java编写的Spark应用程序中运行Python代码?

时间:2017-08-17 21:56:01

标签: java python hadoop apache-spark avro

我一直在研究如何从Java代码运行Python代码,我已经看到了一些选项来做到这一点。

我的场景有点不同,想象一下用java编写的Spark应用程序,它将处理一个大型数据集(让我们说3B记录,大小约为1TB)。 对于每条记录,Python代码将被调用一次。 Java代码需要传递Avro记录,Python代码将处理它并返回结果。

鉴于性能很重要,我们将处理大型数据集,我试图找出解决此问题的最佳方案。

0 个答案:

没有答案