在BigQuery表中加载后,为什么镶木地板文件中的数据与源数据不匹配

时间:2019-05-17 06:53:17

标签: google-bigquery google-cloud-storage parquet

从Google存储空间中将实木复合地板文件加载到BigQuery表中之后。预览中的数据会点按(在Bigquery中)与原始来源的数据不同。但是架构是正确的。

1 个答案:

答案 0 :(得分:0)

我认为,如果架构正确,那么加载的数据必须正确。我最好的猜测是实木复合地板文件中的数据被屏蔽了,您将需要一个函数来对其进行屏蔽。

要验证实木复合地板是否包含加载到BQ的相同数据,您可以通过运行实木复合地板工具在原始实木复合地板文件中列出几行:

$ hadoop jar parquet-tools-1.9.0.jar head file:///ea4b68c5d20bbc90-bfec9bfd00000000_333529865_data.0.parq