首先,我需要承认我是Bluemix和Spark的新手。我只想尝试使用Bluemix Spark服务。
我想对文本文件中的十亿条记录执行批处理操作,然后我想用我自己的一组Java API处理这些记录。
这是我想使用Spark服务来加快数据集处理的地方。
以下是我的问题:
我可以从Python调用Java代码吗?据我了解,目前只支持Python样板吗?在我的Java API下面也有很少的JNI。
我可以使用Bluemix Spark服务执行批处理操作,还是仅用于交互目的?
我可以使用Bluemix创建类似管道(一个阶段的输出转到另一个阶段),我需要为它编码吗?
对于上述查询,我将非常感谢所有帮助。
期待这里的一些专家建议。
感谢。
答案 0 :(得分:1)
IBM Analytics for Apache Spark服务现已推出,它允许您提交带有spark-submit的Java代码/批处理程序以及python / scala的笔记本界面。
此前,测试版代码仅限于笔记本电脑互动界面。
此致 阿努普