我们正在尝试调试某些行没有进入我们预期的BigQuery的情况。我们看到没有错误或警告,并认为我们的流媒体插入调用成功。使用python,我们运行bigquery.tabledata().insertAll
并在响应中看不到insertErrors
。
在流式传输时,我们还有一个工作,通过创建物化视图并用我们的表替换它来检查重复项并修复它们:
insert_request = bigquery.jobs().insert(
projectId=project_id,
# https://cloud.google.com/bigquery/docs/reference/v2/jobs#resource
body={
"configuration": {
"query": {
"writeDisposition": "WRITE_TRUNCATE", # overwrite
"query": query,
"useQueryCache": True,
"useLegacySql": legacy_sql,
"destinationTable": {
"projectId": project_id,
"datasetId": dataset_id,
"tableId": table_name
},
}
}
})
job = insert_request.execute()
check_job_status(bigquery, job)
我们正在流式传输并且在缓冲区中的行是否可能在重复数据删除过程中被丢弃?