使用下面的代码,我想问一些关于下面到底发生了什么的问题。
dataset = tf.data.TFRecordDataset(filepath)
dataset = dataset.map(parse_function, num_parallel_calls=4)
dataset = dataset.repeat()
dataset = dataset.shuffle(1024)
dataset = dataset.batch(16)
iterator = dataset.make_one_shot_iterator()
1。dataset.map(parse_function, num_parallel_calls=4)
-我们在这里加载多少条记录?内存或固定数目可以容纳多少?
2。dataset = dataset.repeat()
-我们到底要重复什么?当前从.1点加载的数据?如果是这样,是否意味着我们将不再加载其他文件?
3。随机播放到底如何工作?
4。我们可以在映射之前使用重复,随机播放和批处理并在文件路径上工作,而不是单独使用文件吗?
答案 0 :(得分:0)
dataset.repeat()
没有指定纪元值将无限期重复数据集。 tf.data.TFRecordDataset
期望文件名作为输入。通常,首选顺序是
dataset = dataset.shuffle(shuffle_buffer).repeat()
dataset = dataset.batch(batch_size)
dataset = dataset.map(map_func)
答案 1 :(得分:0)
repeat
和shuffle
合并在一起的功能here。