我将数据集上传到Google Cloud AI的存储中。接下来,我在dataprep中打开流,并将数据集放到那里。当我做第一个配方时(已经没有任何步骤),数据集大约有其原始行的一半,即36234,而不是62948。
我想知道是什么引起了这个问题。一些缺少的配置?
非常感谢您
答案 0 :(得分:0)
这里有几点想法。 。
请记住,Dataprep编辑器中显示的内容通常是数据的样本,而不是完整的数据(除非非常小)。如果整个文件足够小,无法加载,则应该在通常显示示例的地方看到“完整数据”标签:
在其他情况下,您实际上正在查看的是一个示例,该示例也会显示:
如果您还没有阅读文档,那么了解Dataprep的采样方式是非常有益的: https://cloud.google.com/dataprep/docs/html/Overview-of-Sampling_90112099
我偶尔注意到的另一个问题是在加载压缩CSV时。在这种情况下,我已经让界面告诉我正在查看“完整数据”,但是行数不正确。但是,无论何时发生这种情况,作业都会实际处理全部行数。