使用Cloud Composer启动CloudDataFlow Java App时出错

时间:2018-10-18 10:08:23

标签: google-cloud-dataflow google-cloud-composer

是GCP新手,尝试使用GCP Cloud Composers DataflowJavaOperator为BeamTutorial运行云数据流应用时遇到错误。气流拾取管道,但失败并显示以下错误。

gcp_dataflow_hook.py:115} INFO - Running command: java -cp /tmp/dataflow13ec2a50-BeamTutorial-0.0.1-SNAPSHOT.jar org.apache.beam.examples.tutorial.game.solution.Exercise2 --runner=DataflowRunner --project=..... --region=us-central1 --labels={"airflow-version":"v1-9-0-composer"} --jobName=run-beam-data-flow-java-1449a1da --outputPrefix=gs://..../ex2-spark/out
gcp_dataflow_hook.py:127} WARNING - Error: A JNI error has occurred, please check your installation and try again
[2018-10-18 09:35:00,316] {base_task_runner.py:98} INFO - Subtask: Exception in thread "main" java.lang.NoClassDefFoundError:org/apache/beam/sdk/options/PipelineOptions

这个BeamTutorial-0.0.1-SNAPSHOT.jar并不是一个胖子,当从gcp cloud shell手动提交时,如下所示,它成功地在Dataflow中运行了作业

mvn compile exec:java -Dexec.mainClass="org.apache.beam.examples.tutorial.game.solution.Exercise2" -Dexec.args="--runner=dataflow --project=<project-name> --outputPrefix=gs://..../beam-tutorial/ex2-spark/out" -Pdataflow-runner

感谢您提供任何修复此错误的帮助。谢谢。

1 个答案:

答案 0 :(得分:1)

使用DataFlowJavaOperator时,您需要遵循instructions here来创建“ .jar”文件:

  • 从链接添加依赖项和插件
  • 运行"https://graph.microsoft.com/v1.0/sites/{site-id}/drives". 创建您的“ .jar”文件

一旦您这样做,我建议在尝试在Composer中运行“ .jar”文件之前,先确保该文件确实正确运行。因此,在这种情况下,following the tutorial运行:

mvn package

我也得到:

java -jar target/BeamTutorial-0.0.1-SNAPSHOT.jar   --runner=DataflowRunner   --p
roject=<my-project>   --tempLocation=<my-bucket>

因此,该问题看起来与Java有关,并且pom的配置方式没有创建有效的.jar文件,或者期望某些其他参数。无论如何,您都应该先对“ .jar” / pom进行故障排除。

对于其他一些管道,我已经使用DataflowJavaOperator和有效的“ .jar”文件成功运行了它们。