标签: java python hadoop apache-spark avro
我一直在研究如何从Java代码运行Python代码,我已经看到了一些选项来做到这一点。
我的场景有点不同,想象一下用java编写的Spark应用程序,它将处理一个大型数据集(让我们说3B记录,大小约为1TB)。 对于每条记录,Python代码将被调用一次。 Java代码需要传递Avro记录,Python代码将处理它并返回结果。
鉴于性能很重要,我们将处理大型数据集,我试图找出解决此问题的最佳方案。