建立配方时数据集行消失

时间:2019-04-03 10:24:37

标签: google-cloud-dataprep

我将数据集上传到Google Cloud AI的存储中。接下来,我在dataprep中打开流,并将数据集放到那里。当我做第一个配方时(已经没有任何步骤),数据集大约有其原始行的一半,即36234,而不是62948。

我想知道是什么引起了这个问题。一些缺少的配置?

非常感谢您

1 个答案:

答案 0 :(得分:0)

这里有几点想法。 。


数据采样

请记住,Dataprep编辑器中显示的内容通常是数据的样本,而不是完整的数据(除非非常小)。如果整个文件足够小,无法加载,则应该在通常显示示例的地方看到“完整数据”标签:

Google Cloud Dataprep navigation indicating that the full file has been loaded

在其他情况下,您实际上正在查看的是一个示例,该示例也会显示:

Google Cloud Dataprep navigation indicating that the current dataset has been sampled

如果您还没有阅读文档,那么了解Dataprep的采样方式是非常有益的: https://cloud.google.com/dataprep/docs/html/Overview-of-Sampling_90112099


压缩源:

我偶尔注意到的另一个问题是在加载压缩CSV时。在这种情况下,我已经让界面告诉我正在查看“完整数据”,但是行数不正确。但是,无论何时发生这种情况,作业都会实际处理全部行数。