通过DataProc UI提交Spark Streaming作业

时间:2018-07-06 22:04:53

标签: apache-spark google-cloud-platform google-cloud-dataproc

如何在DataProc UI上指定多个jar文件(我的意思是在Web浏览器上)。例如,在命令行中,我可以按以下方式启动作业:

export SPARK_MASTER=local[8]
export DEPENDENCIES=/home/xxx/.ivy2/cache/org.apache.bahir/spark-streaming-twitter_2.11/jars/spark-streaming-twitter_2.11-2.0.1.jar,/home/xxx/.ivy2/cache/org.twitter4j/twitter4j-core/jars/twitter4j-core-4.0.4.jar,/home/xxx/.ivy2/cache/org.twitter4j/twitter4j-stream/jars/twitter4j-stream-4.0.4.jar
/usr/bin/spark-submit \
      --master $SPARK_MASTER \
      --jars $DEPENDENCIES \
      --class me.baghino.spark.streaming.twitter.example.TwitterSentimentScore \
      target/scala-2.11/spark-twitter-stream-example_2.11-1.0.0.jar

我将所有这些文件复制到Google Storage上的存储桶中,然后在 Jar文件下输入:

gs://mybucket/testdata/spark-twitter-stream-example_2.11-1.0.0.jar:gs://mybucket/testdata/spark-streaming-twitter_2.11-2.0.1.jar:gs://mybucket/testdata/twitter4j-core-4.0.4.jar:gs://mybucket/testdata/twitter4j-stream-4.0.4.jar

还尝试使用逗号:

gs://mybucket/testdata/spark-twitter-stream-example_2.11-1.0.0.jar,gs://mybucket/testdata/spark-streaming-twitter_2.11-2.0.1.jar,gs://mybucket/testdata/twitter4j-core-4.0.4.jar,gs://mybucket/testdata/twitter4j-stream-4.0.4.jar

我还尝试在参数下添加-jars 。那也不起作用。

1 个答案:

答案 0 :(得分:1)

希望这个答案仍然有帮助。在“ Jar文件”字段的仪表板“提交作业”中,您必须为每个条目输入一个文件。这意味着您需要像Enter Arguments字段一样键入Enter键。我在文档中发现了以下线索:“按,为每个其他参数打开一个新的文本框。” 这是罐子的一个例子:

Adding Jar files for Submitting a job