我们需要编写和安排非常复杂的管道。我看到Hadoop生态系统有Oozie。当我在Mesos或Standalone上运行Spark并且没有Hadoop集群时,基于Spark的作业有哪些选择?
答案 0 :(得分:0)
Oozie可用于纱线, 对于spark,没有可用的内置调度程序,因此您可以自由选择任何在集群模式下工作的调度程序。
对于Mesos,我觉得Chronos是正确的选择,有关Chronos
的更多信息答案 1 :(得分:0)
与Hadoop不同,使用Spark链接东西非常容易。因此编写Spark Scala脚本可能就足够了。我的第一个建议就是把它绑起来。
如果你想保持它的SQL,你可以试试SparkSQL。
如果您的流程非常复杂,那么值得查看Google数据流https://github.com/GoogleCloudPlatform/DataflowJavaSDK。