如何为谷歌张量流注意ocr创建cutomized数据集?

时间:2018-02-27 10:34:58

标签: python tensorflow ocr

我可以根据this question创建TFRecord文件。但我不知道是否应该将所有图像写入单个TFRecord文件或创建多个TFRecord文件。另外,我不太了解日期集config file。应该包含哪些内容" charset_filename"文件?它应该是数据集中所有可能的字符集合吗?生成TFRecord文件时,如果此文件包含字符或其ID,我们将字符转换为整数ID?

1 个答案:

答案 0 :(得分:0)

  

我是否应该将所有图像写入单个TFRecord文件或   创建多个TFRecord文件

它取决于训练数据的大小,并且对并行预取以填充队列有影响。我建议每个碎片大约1000个样本(一个带有后缀num-of-total的tfrecord文件,例如/path/to/my/dataset-00000-of-00512)。

  

“charset_filename”文件中应包含哪些内容?

它是一个文本文件,用于定义整数ID和相应字符之间的映射。它具有以下格式: <id><TAB><character> 文件中的一行应定义<nul>字符的id - 模型在到达序列末尾时输出的特殊字符,以将输出填充到固定长度。

例如,以下是FSNS数据集charset file的摘录:

0    
133 <nul>
1   l
2   ’
3   é
4   t

请注意<SPACE>字符的id = 0。

  

它应该是数据集中所有可能的字符集合吗?

是肯定的。此文件应定义数据集中所有字符的id-to-character映射。

  

生成TFRecord文件时,我们将字符转换为整数ID,   该文件是否应包含字符或其ID?

两者。文件中的每一行都应采用<id><TAB><character>

的形式