Question

我可以根据this question创建TFRecord文件。但我不知道是否应该将所有图像写入单个TFRecord文件或创建多个TFRecord文件。另外，我不太了解日期集config file。应该包含哪些内容＆＃34; charset_filename＆＃34;文件？它应该是数据集中所有可能的字符集合吗？生成TFRecord文件时，如果此文件包含字符或其ID，我们将字符转换为整数ID？

Answer 1

我是否应该将所有图像写入单个TFRecord文件或创建多个TFRecord文件

它取决于训练数据的大小，并且对并行预取以填充队列有影响。我建议每个碎片大约1000个样本（一个带有后缀num-of-total的tfrecord文件，例如/path/to/my/dataset-00000-of-00512）。

“charset_filename”文件中应包含哪些内容？

它是一个文本文件，用于定义整数ID和相应字符之间的映射。它具有以下格式： <id><TAB><character> 文件中的一行应定义<nul>字符的id - 模型在到达序列末尾时输出的特殊字符，以将输出填充到固定长度。

例如，以下是FSNS数据集charset file的摘录：

0    
133 <nul>
1   l
2   ’
3   é
4   t

请注意<SPACE>字符的id = 0。

它应该是数据集中所有可能的字符集合吗？

是肯定的。此文件应定义数据集中所有字符的id-to-character映射。

生成TFRecord文件时，我们将字符转换为整数ID，该文件是否应包含字符或其ID？

两者。文件中的每一行都应采用<id><TAB><character>。

的形式

如何为谷歌张量流注意ocr创建cutomized数据集？

1 个答案: