我正在通过Hadoop管理非结构化事件数据,并希望将其置于BigQuery中。我有一个包含大多数字段的模式,但有些字段我想忽略或不知道。
BigQuery有一个名为ignoreUnknownValues的配置字段,但我无法弄清楚如何从Hadoop连接器启用它。这可能吗?
答案 0 :(得分:2)
不幸的是,Hadoop的BigQuery连接器目前还不支持此功能。我们确保在下一版本中添加更灵活的配置自定义,并直接支持已知的配置设置,如ignoreUnknownValues
。与此同时,如果您要从源代码构建,那么您应该可以在line 317 of BigQueryRecordWriter.java之后添加:
loadConfig.setIgnoreUnknownValues(true);
然后您只需mvn -Phadoop1 package
或mvn -Phadoop2 package
并将自定义BigQuery连接器jar文件上传到GCS中的某个位置,最后修改BIGQUERY_CONNECTOR_JAR
中的bdutil_env.sh
以指向您的自定义重新部署之前的jarfile。