我只在阅读,然后写(到另一个表)时才会出现此错误。如果我只从表中读取,则不会发生错误。例如,下面的代码不会产生错误。
Pipeline p = Pipeline.create(
PipelineOptionsFactory.fromArgs(args).withValidation().create());
PCollection<TableRow> BigQueryTableRow = p
.apply(BigQueryIO.Read.named("ReadTable")
.from("project:dataset.data_table"));
p.run();
但如果我执行以下操作,则会收到“BigQuery作业后端错误”。
Pipeline p = Pipeline.create(
PipelineOptionsFactory.fromArgs(args).withValidation().create());
PCollection<TableRow> BigQueryTableRow = p
.apply(BigQueryIO.Read.named("ReadTable")
.from("project:dataset.data_table"));
TableSchema tableSchema = new TableSchema().setFields(fields);
BigQueryTableRow.apply(BigQueryIO.Write
.named("Write Members to BigQuery")
.to("project:dataset.data_table_two")
.withSchema(tableSchema)
.withWriteDisposition(BigQueryIO.Write.WriteDisposition.WRITE_TRUNCATE)
.withCreateDisposition(BigQueryIO.Write.CreateDisposition.CREATE_IF_NEEDED));
p.run();
有关错误的更多详细信息
BigQuery job "dataflow_job" in project "project-name"
finished with error(s): errorResult: Backend error.
Job aborted.
答案 0 :(得分:1)
我设法自己解决了这个问题。产生后端错误消息是因为我的表中有两个重复的字段。
如果我尝试使用BigQuery的Web服务输出整个表格,则会显示更有用的错误消息。
Error: Cannot output multiple independently repeated fields
at the same time. Found memberships_is_coach and actions_type
&#13;
不幸的是,后端错误&#39;消息没有真正洞察问题。此外,当只读取数据并且不执行任何操作时,不会给出错误,这进一步加剧了问题。