在Dataflow中读取和写入表时出现BigQuery后端错误

时间:2016-07-20 07:38:47

标签: google-bigquery google-cloud-dataflow

我只在阅读,然后写(到另一个表)时才会出现此错误。如果我只从表中读取,则不会发生错误。例如,下面的代码不会产生错误。

   Pipeline p = Pipeline.create(
    PipelineOptionsFactory.fromArgs(args).withValidation().create());

   PCollection<TableRow> BigQueryTableRow = p
    	.apply(BigQueryIO.Read.named("ReadTable")
        .from("project:dataset.data_table"));

   p.run();

但如果我执行以下操作,则会收到“BigQuery作业后端错误”。

Pipeline p = Pipeline.create(
    PipelineOptionsFactory.fromArgs(args).withValidation().create());
   PCollection<TableRow> BigQueryTableRow = p
    	.apply(BigQueryIO.Read.named("ReadTable")
        .from("project:dataset.data_table"));


    TableSchema tableSchema = new TableSchema().setFields(fields);
    
    BigQueryTableRow.apply(BigQueryIO.Write
      .named("Write Members to BigQuery")
      .to("project:dataset.data_table_two")
      .withSchema(tableSchema)
      .withWriteDisposition(BigQueryIO.Write.WriteDisposition.WRITE_TRUNCATE)
      .withCreateDisposition(BigQueryIO.Write.CreateDisposition.CREATE_IF_NEEDED));
        
       p.run();

有关错误的更多详细信息

BigQuery job "dataflow_job" in project "project-name" 
finished with error(s): errorResult: Backend error. 
Job aborted.

1 个答案:

答案 0 :(得分:1)

我设法自己解决了这个问题。产生后端错误消息是因为我的表中有两个重复的字段。

如果我尝试使用BigQuery的Web服务输出整个表格,则会显示更有用的错误消息。

&#13;
&#13;
Error: Cannot output multiple independently repeated fields
at the same time. Found memberships_is_coach and actions_type
&#13;
&#13;
&#13;

不幸的是,后端错误&#39;消息没有真正洞察问题。此外,当只读取数据并且不执行任何操作时,不会给出错误,这进一步加剧了问题。