载入BigQuery之前如何清理.CSV文件?

时间:2019-12-22 02:29:49

标签: google-cloud-platform google-bigquery

我有很多.CSV文件,这些文件存储在gcs中,我希望使用

从.CSV数据到创建的表中
bq load 'dataset.table' gs://path.csv schema

我尝试过,但总是出错

如何在导入.CSV之前删除不需要的值?

1 个答案:

答案 0 :(得分:1)

我了解您可能有许多CSV文件,但它们都不都与目标表架构一对一匹配。解决它的一种方法是调整CSV字段的数量,您可以使用无服务器Storage Mirror Recover settings
考虑到您已经在Google Cloud Storage中保存了CSV文件,另一种考虑的方法是使用BqTail进行无服务器数据提取。

使用BqTail,您可以为CSV文件指定专用的临时模式,以最终将其提取到目标表中。这是link的e2e测试规则将CSV提取到临时表,然后提取到最终目标表的示例。

有时数据质量超出我们的控制范围,在那种情况下,我一直在使用BqTail自动检测批处理Load作业中的损坏文件,然后将它们发送到Storage Mirror Recovery进行调整,然后将其发送回另一个Load作业。 / p>