Dataprep将具有不同列数的文件导入数据集中

时间:2019-04-23 10:49:41

标签: google-cloud-platform google-cloud-dataprep

我正在尝试创建一个参数化的数据集,该数据集从GCS导入文件并将它们放置在彼此之下。一切正常(导入数据>参数化)。

为了提供一些背景信息,我每天存储一个.csv文件,并使用不同的名称引用该日期。

现在,碰巧我的提供商从上个月开始在文件中添加了新列。这意味着此日期之前的文件具有 8列,而从该日期开始的文件具有 9列

但是,当我进行参数设置时,Dataprep仅考虑匹配的列(因此仅 8列)。理想情况下,我希望对没有此新列的文件中的行进行空观察。

如何实现?

1 个答案:

答案 0 :(得分:3)

参数化数据集仅适用于documentation中所述的固定模式:

  

避免在单个文件或表具有不同架构的情况下使用参数创建数据集。

此固定模式是使用在带有参数的数据集创建期间找到的文件之一生成的。

如果架构已更改,则可以通过使用参数编辑数据集并单击“保存”来“ 刷新”。如果所有匹配的文件都包含9列,那么您现在应该在转换器中看到9列。