是GCP新手,尝试使用GCP Cloud Composers DataflowJavaOperator为BeamTutorial运行云数据流应用时遇到错误。气流拾取管道,但失败并显示以下错误。
gcp_dataflow_hook.py:115} INFO - Running command: java -cp /tmp/dataflow13ec2a50-BeamTutorial-0.0.1-SNAPSHOT.jar org.apache.beam.examples.tutorial.game.solution.Exercise2 --runner=DataflowRunner --project=..... --region=us-central1 --labels={"airflow-version":"v1-9-0-composer"} --jobName=run-beam-data-flow-java-1449a1da --outputPrefix=gs://..../ex2-spark/out
gcp_dataflow_hook.py:127} WARNING - Error: A JNI error has occurred, please check your installation and try again
[2018-10-18 09:35:00,316] {base_task_runner.py:98} INFO - Subtask: Exception in thread "main" java.lang.NoClassDefFoundError:org/apache/beam/sdk/options/PipelineOptions
这个BeamTutorial-0.0.1-SNAPSHOT.jar并不是一个胖子,当从gcp cloud shell手动提交时,如下所示,它成功地在Dataflow中运行了作业
mvn compile exec:java -Dexec.mainClass="org.apache.beam.examples.tutorial.game.solution.Exercise2" -Dexec.args="--runner=dataflow --project=<project-name> --outputPrefix=gs://..../beam-tutorial/ex2-spark/out" -Pdataflow-runner
感谢您提供任何修复此错误的帮助。谢谢。
答案 0 :(得分:1)
使用DataFlowJavaOperator时,您需要遵循instructions here来创建“ .jar”文件:
"https://graph.microsoft.com/v1.0/sites/{site-id}/drives".
创建您的“ .jar”文件一旦您这样做,我建议在尝试在Composer中运行“ .jar”文件之前,先确保该文件确实正确运行。因此,在这种情况下,following the tutorial运行:
mvn package
我也得到:
java -jar target/BeamTutorial-0.0.1-SNAPSHOT.jar --runner=DataflowRunner --p
roject=<my-project> --tempLocation=<my-bucket>
因此,该问题看起来与Java有关,并且pom的配置方式没有创建有效的.jar文件,或者期望某些其他参数。无论如何,您都应该先对“ .jar” / pom进行故障排除。
对于其他一些管道,我已经使用DataflowJavaOperator和有效的“ .jar”文件成功运行了它们。