Tensorflow 2创建自定义数据集

时间:2019-08-12 11:13:19

标签: tensorflow tensorflow-datasets tensorflow2.0

我正在尝试构建一个自定义的数据集加载器,它装载ICDAR-Dataset。 我的第一步是按照建议将一个数据集嵌入到我的加载器中 here在本文中,但问题在于您必须实现tenfsoflow-2类“数据集”提供的所有不错的功能。

我的第二个尝试是将数据集类子类化,例如:

class MyDataset(tf.data.Dataset):
  def __init__(self):
    super(MyDataset, self).init()

  def preprocess_images(self):
    pass

但是问题是我没有找到内部数据集类真正能提供的任何文档,我发现的唯一实现是this one

所以问题是,是否有人知道如何通过继承tf.data.Dataset来在tf2中构建自定义“数据集”。

通过我也尝试过tensorflow_datasets的方式,它实际上并没有工作,因为它将下载数据集,并手动拆分它们,这是由火车和测试分开的,而且ICDAr也不能在没有注册的情况下被删除。

ICDAR数据集的内容如下:

  

图片

     

每个图像中所有文本的列表

     

每个图像中每个文本的Bouding-box列表

图片: @ https://rrc.cvc.uab.es/?ch=4拥有此图像的版权。 enter image description here

上图的单词和边框:

377,117,463,117,465,130,378,130,Genaxis Theatre
493,115,519,115,519,131,493,131,[06]
374,155,409,155,409,170,374,170,###
492,151,551,151,551,170,492,170,62-03
376,198,422,198,422,212,376,212,Carpark
494,190,539,189,539,205,494,206,###
374,1,494,0,492,85,372,86,###

谢谢 有谁知道

0 个答案:

没有答案