如何使用oozie运行/安排使用spark-shell命令运行的.scala文件?
我使用 spark-shell -i combined.scala 运行此文件 命令!
我想知道是否有类似于我们如何在oozie安排猪工作的具体内容!
根据David的建议,我创建了xml:
<workflow-app xmlns='uri:oozie:workflow:0.2' name='oozie-java-spark-wf'>
<start to='java-spark' />
<action name='java-spark'>
<spark xmlns="uri:oozie:spark-action:0.1">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<master>yarn-cluster</master>
<name>Spark Patent Citation</name>
<class>org.apache.spark.repl.Main</class>
<jar></jar>
<arg>-i</arg>
<arg>${nameNode}/user/hdfs/scala_file/combined.scala</arg>
</spark>
<ok to="end"/>
<error to="fail"/>
</action>
<kill name="fail">
<message>Spark Java PatentCitation failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
</kill>
<end name="end"/>
</workflow-app>
我收到这样的错误:
错误代码JA018 错误消息主类[org.apache.oozie.action.hadoop.SparkMain],main()引发异常,null
我哪里错了?
答案 0 :(得分:2)
Oozie有一个Spark Action:
spark-shell只是org.apache.spark.repl.Main
的包装 - 只需将其指定为SPARK MAIN CLASS
,并将-i
和combined.scala
作为<arg/>
值传递。