Question

我们使用Google BigQuery Spark Connector将存储在Parquet文件中的数据导入BigQuery。使用自定义工具，我们生成了BigQuery所需的模式文件，并在我们的导入代码（Scala）中引用它。

但是，我们的数据并不真正遵循固定且定义明确的架构，在某些情况下，可能会将其他列添加到各个数据集中。这就是为什么当使用命令行工具bq试验BigQuery时，我们几乎总是使用--ignore_unknown_values，否则很多导入都会失败。

不幸的是，我们在BigQuery Spark Connector com.google.cloud.bigdataoss:bigquery-connector:0.10.1-hadoop2中找不到等效的配置选项。它存在吗？

Answer 1

遗憾的是，目前还没有通过连接器，即使我们现在添加它，官方版本也需要几周时间才能部署到任何地方。我filed an issue在github存储库中跟踪此功能请求。

与此同时，如果您想构建自己的连接器版本，可以在BigQueryRecordWriter中明确编辑JobConfigurationLoad设置，如果您使用的是旧版＆＃34;直接输出格式＆＃34;或BigQueryHelper如果您使用较新的＆＃34;间接输出格式＆＃34;，并添加如下行：

loadConfig.setIgnoreUnknownValues(true);