我有很多.CSV文件,这些文件存储在gcs中,我希望使用
从.CSV数据到创建的表中bq load 'dataset.table' gs://path.csv schema
我尝试过,但总是出错
如何在导入.CSV之前删除不需要的值?
答案 0 :(得分:1)
我了解您可能有许多CSV文件,但它们都不都与目标表架构一对一匹配。解决它的一种方法是调整CSV字段的数量,您可以使用无服务器Storage Mirror Recover settings
考虑到您已经在Google Cloud Storage中保存了CSV文件,另一种考虑的方法是使用BqTail进行无服务器数据提取。
使用BqTail,您可以为CSV文件指定专用的临时模式,以最终将其提取到目标表中。这是link的e2e测试规则将CSV提取到临时表,然后提取到最终目标表的示例。
有时数据质量超出我们的控制范围,在那种情况下,我一直在使用BqTail自动检测批处理Load作业中的损坏文件,然后将它们发送到Storage Mirror Recovery进行调整,然后将其发送回另一个Load作业。 / p>