我可以根据this question创建TFRecord文件。但我不知道是否应该将所有图像写入单个TFRecord文件或创建多个TFRecord文件。另外,我不太了解日期集config file。应该包含哪些内容" charset_filename"文件?它应该是数据集中所有可能的字符集合吗?生成TFRecord文件时,如果此文件包含字符或其ID,我们将字符转换为整数ID?
答案 0 :(得分:0)
我是否应该将所有图像写入单个TFRecord文件或 创建多个TFRecord文件
它取决于训练数据的大小,并且对并行预取以填充队列有影响。我建议每个碎片大约1000个样本(一个带有后缀num-of-total的tfrecord文件,例如/path/to/my/dataset-00000-of-00512
)。
“charset_filename”文件中应包含哪些内容?
它是一个文本文件,用于定义整数ID和相应字符之间的映射。它具有以下格式:
<id><TAB><character>
文件中的一行应定义<nul>
字符的id - 模型在到达序列末尾时输出的特殊字符,以将输出填充到固定长度。
例如,以下是FSNS数据集charset file的摘录:
0
133 <nul>
1 l
2 ’
3 é
4 t
请注意<SPACE>
字符的id = 0。
它应该是数据集中所有可能的字符集合吗?
是肯定的。此文件应定义数据集中所有字符的id-to-character映射。
生成TFRecord文件时,我们将字符转换为整数ID, 该文件是否应包含字符或其ID?
两者。文件中的每一行都应采用<id><TAB><character>
。