从Google Cloud Storage(GCS)导入参数化数据集时,我正努力以Dataprep打算拥有的方式保存文件。
具体来说:
我将.csv文件存储在GCS上的某个位置:
/20190807/file1.csv
/20190807/file2.csv
/20190807/file3.csv
/20190808/file1.csv
/20190808/file2.csv
/20190808/file3.csv
/20190809/file1.csv
/20190809/file2.csv
/20190809/file3.csv
...
然后,我使用*通配符在此位置创建带有参数的数据集。
此外:
编码:我应用了检测自动结构,并选择了UTF-8
(因为我使用此编码存储了所有文件)。
列:我还要确保所有文件都具有相同的列。
问题:
但是,由于某种原因,我想取决于文件的保存方式,Dataprep在导入文件时不会提取所有文件。当我拿走这两个文件时,我无法确定它们有什么不同。两者都保存为类型application/octet-stream
,我应用了UTF-8
编码。
因此,当我将数据集弄乱后导出输出时,我错过了一些日期(例如20190808)。
因此,有没有一种工具可以比较这两个文件,以查看它们之间的不同之处,从而防止这些事情的发生。不能将它们存储在不同的位置,因为我事先不知道哪些文件会有所不同。
我真的为这个缺点感到惊讶,并且以某种方式只检查每个文件的列而不是检查其他“隐藏的”差异将是很棒的。