在创建文件时,是否可以将数据集元数据保存在Tensorflow TFRecords文件中?
我一直在研究新的using (TextWriter tw = new StreamWriter("example.txt"))
{
for(int i = 0; i < dataGridView1.Rows.Count - 1; i++)
{
for(int j = 0; j < dataGridView1.Columns.Count; j++)
{
tw.Write($"{dataGridView1.Rows[i].Cells[j].Value.ToString()}");
if(!j == dataGridView1.Columns.Count - 1)
{
tw.Write(",");
}
}
tw.WriteLine();
}
}
软件包,它确实非常不错。他们做了很多出色的工作,以简化将标准数据集放入张量流训练管道的过程。
此工具的一个不错的功能是,它可以保存有关数据集的元数据,例如数据集中的示例数或训练和测试拆分中的样本等。Tensorflow Datasets
对象将保存内存中数据集的元数据。这是从该软件包的github回购中获取的示例:
DatasetInfo()
现在,如果您查看此对象,则可以看到它包含 tfds.core.DatasetInfo(
name='mnist',
version=1.0.0,
description='The MNIST database of handwritten digits.',
urls=[u'http://yann.lecun.com/exdb/mnist/'],
features=FeaturesDict({
'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10)
},
total_num_examples=70000,
splits={
u'test': <tfds.core.SplitInfo num_examples=10000>,
u'train': <tfds.core.SplitInfo num_examples=60000>
},
supervised_keys=(u'image', u'label'),
citation='"""
@article{lecun2010mnist,
title={MNIST handwritten digit database},
author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
journal={ATT Labs [Online]. Available: http://yann. lecun. com/exdb/mnist},
volume={2},
year={2010}
}
"""',
)
和其他对象,在将TFRecords文件提取到Tensorflow中时,通常会将它们传递给解析函数。
因此,我想知道是否有一种在编码文件时将这种类型的元数据保存到TFRecords文件中的方法?否则,用户必须遍历整个数据集,以获取简单的信息,例如示例数。在计算要运行的步骤数等时,此类信息很重要。