使用Hadoop BigQuery Connector中的ignoreUnknownValues

时间:2015-02-03 03:01:05

标签: hadoop google-bigquery google-hadoop

我正在通过Hadoop管理非结构化事件数据,并希望将其置于BigQuery中。我有一个包含大多数字段的模式,但有些字段我想忽略或不知道。

BigQuery有一个名为ignoreUnknownValues的配置字段,但我无法弄清楚如何从Hadoop连接器启用它。这可能吗?

1 个答案:

答案 0 :(得分:2)

不幸的是,Hadoop的BigQuery连接器目前还不支持此功能。我们确保在下一版本中添加更灵活的配置自定义,并直接支持已知的配置设置,如ignoreUnknownValues。与此同时,如果您要从源代码构建,那么您应该可以在line 317 of BigQueryRecordWriter.java之后添加:

loadConfig.setIgnoreUnknownValues(true);

然后您只需mvn -Phadoop1 packagemvn -Phadoop2 package并将自定义BigQuery连接器jar文件上传到GCS中的某个位置,最后修改BIGQUERY_CONNECTOR_JAR中的bdutil_env.sh以指向您的自定义重新部署之前的jarfile。