Dataprep“使用参数创建数据集”不会获取所有文件

时间:2019-08-09 10:50:58

标签: google-cloud-storage google-cloud-dataprep

从Google Cloud Storage(GCS)导入参数化数据集时,我正努力以Dataprep打算拥有的方式保存文件。

具体来说:

我将.csv文件存储在GCS上的某个位置:

/20190807/file1.csv
/20190807/file2.csv
/20190807/file3.csv
/20190808/file1.csv
/20190808/file2.csv
/20190808/file3.csv
/20190809/file1.csv
/20190809/file2.csv
/20190809/file3.csv
...

然后,我使用*通配符在此位置创建带有参数的数据集。

enter image description here

此外:

  • 编码:我应用了检测自动结构,并选择了UTF-8(因为我使用此编码存储了所有文件)。

  • :我还要确保所有文件都具有相同的列。

问题: 但是,由于某种原因,我想取决于文件的保存方式,Dataprep在导入文件时不会提取所有文件。当我拿走这两个文件时,我无法确定它们有什么不同。两者都保存为类型application/octet-stream,我应用了UTF-8编码。

因此,当我将数据集弄乱后导出输出时,我错过了一些日期(例如20190808)。

因此,有没有一种工具可以比较这两个文件,以查看它们之间的不同之处,从而防止这些事情的发生。不能将它们存储在不同的位置,因为我事先不知道哪些文件会有所不同。

我真的为这个缺点感到惊讶,并且以某种方式只检查每个文件的列而不是检查其他“隐藏的”差异将是很棒的。

0 个答案:

没有答案