Google BigQuery Spark Connector:如何忽略追加的未知值

时间:2017-03-15 12:40:17

标签: scala google-bigquery google-hadoop

我们使用Google BigQuery Spark Connector将存储在Parquet文件中的数据导入BigQuery。使用自定义工具,我们生成了BigQuery所需的模式文件,并在我们的导入代码(Scala)中引用它。

但是,我们的数据并不真正遵循固定且定义明确的架构,在某些情况下,可能会将其他列添加到各个数据集中。这就是为什么当使用命令行工具bq试验BigQuery时,我们几乎总是使用--ignore_unknown_values,否则很多导入都会失败。

不幸的是,我们在BigQuery Spark Connector com.google.cloud.bigdataoss:bigquery-connector:0.10.1-hadoop2中找不到等效的配置选项。它存在吗?

1 个答案:

答案 0 :(得分:0)

遗憾的是,目前还没有通过连接器,即使我们现在添加它,官方版本也需要几周时间才能部署到任何地方。我filed an issue在github存储库中跟踪此功能请求。

与此同时,如果您想构建自己的连接器版本,可以在BigQueryRecordWriter中明确编辑JobConfigurationLoad设置,如果您使用的是旧版"直接输出格式& #34;或BigQueryHelper如果您使用较新的"间接输出格式",并添加如下行:

loadConfig.setIgnoreUnknownValues(true);