按照https://www.tensorflow.org/tutorials/load_data/images的说明,我用自己的数据定义了一个数据集,如下所示:
list_ds = tf.data.Dataset.list_files(str(data_dir/'*/*'))
我已经浏览了tf.data.Dataset
的方法,但是无法弄清楚如何将此数据集分成tfds.Split
之类的三个部分(训练,验证,测试)。
如何将该数据集分为三部分? 我希望训练/验证/测试集的大小分别为list_ds的80%,10%和10%。
答案 0 :(得分:0)
这可以通过多种方式实现:
1)将火车,测试和验证数据放入三个单独的文件夹中,然后致电
tf.data.Dataset.list_files(...)
使用适当的文件路径3次。
2)使用Dataset.skip()
和Dataset.take()
。您将必须根据数据集大小手动计算要跳过/采用的实际条目数。
有关数据集操作的更多信息,请参见TF文档: https://www.tensorflow.org/guide/data
希望这对您有帮助!