Question

我想应用注意力-ocr来检测汽车号码牌上的所有数字。我已经在github（https://github.com/tensorflow/models/tree/master/research/attention_ocr）上阅读了tention_ocr的README.md，以及使用我自己的图像数据通过StackOverFlow页面训练模型的方法。（https://stackoverflow.com/a/44461910/743658）但是，我没有得到有关如何存储图片的注释或标签或此问题的格式的任何信息。对于对象检测模型，我能够使用LabelImg制作数据集并将其转换为csv文件，最后制作.tfrecord文件。我想以FSNS数据集格式制作.tfrecord文件。

您能给我您的建议以继续进行此培训吗？

Answer 1

请重新阅读mentioned answer，其中包含解释如何存储注释的部分。它存储在三个功能image/text，image/class和image/unpadded_class中。 image/text字段用于可视化，某些模型支持未填充的序列并使用image/unpadded_class，而默认版本依赖于填充有空字符的文本，以使其在功能{{1}中存储的长度相同}。这是存储文本注释的摘录：

image/class

Answer 2

如果您使用过Tensorflow对象检测，那么这种方法应该对您来说要容易得多。

您可以使用labelImg或任何其他注释工具创建注释文件（.csv格式）。

但是，在将其转换为张量流格式（.tfrecord）之前，应牢记注释格式。（在这种情况下为FSNS格式）

格式为：files text xmin ymin xmax ymax

因此，在进行注释时，不必对类有太多困扰（就像您在对象检测中所做的那样！一些随机名称就足够了。）

将其转换为.tfrecords。
最后，labelMap是您已注释的字符列表。

希望有帮助！

如何用我自己的图像来填充FSNS数据集以引起注意OCR张量流模型

2 个答案: