我在写一个tensorflow tfrecord文件的基础知识上苦苦挣扎。我正在用python编写一个带有ndarray的简单示例,但是由于某种原因,当我读取它时,它必须是可变长度的,并以SparseTensor的形式读取。
这是例子
def serialize_tf_record(features, targets):
record = {
'shape': tf.train.Int64List(value=features.shape),
'features': tf.train.FloatList(value=features.flatten()),
'targets': tf.train.Int64List(value=targets),
}
return build_tf_example(record)
def deserialize_tf_record(record):
tfrecord_format = {
'shape': tf.io.VarLenFeature(tf.int64),
'features': tf.io.VarLenFeature(tf.float32),
'targets': tf.io.VarLenFeature(tf.int64),
}
features_tensor = tf.io.parse_single_example(record, tfrecord_format)
return features_tensor
有人可以向我解释为什么这样写可变长度记录吗?它在代码中是固定的,但我似乎无法以tensorflow知道其固定的方式编写。 tensorflow文档在这里非常恐怖。谁能为我澄清API?
答案 0 :(得分:1)
您应该提供更多上下文代码,例如build_tf_example
函数以及功能和目标示例。
以下是返回密集张量的示例:
import numpy as np
import tensorflow as tf
def build_tf_example(record):
return tf.train.Example(features=tf.train.Features(feature=record)).SerializeToString()
def serialize_tf_record(features, targets):
record = {
'shape': tf.train.Feature(int64_list=tf.train.Int64List(value=features.shape)),
'features': tf.train.Feature(float_list=tf.train.FloatList(value=features.flatten())),
'targets': tf.train.Feature(int64_list=tf.train.Int64List(value=targets)),
}
return build_tf_example(record)
def deserialize_tf_record(record):
tfrecord_format = {
'shape': tf.io.FixedLenSequenceFeature((), dtype=tf.int64, allow_missing=True),
'features': tf.io.FixedLenSequenceFeature((), dtype=tf.float32, allow_missing=True),
'targets': tf.io.FixedLenSequenceFeature((), dtype=tf.int64, allow_missing=True),
}
features_tensor = tf.io.parse_single_example(record, tfrecord_format)
return features_tensor
def main():
features = np.zeros((3, 5, 7))
targets = np.ones((4,), dtype=int)
tf.print(deserialize_tf_record(serialize_tf_record(features, targets)))
if __name__ == '__main__':
main()
record
转换为功能字典(以便轻松序列化)FixedLenSequenceFeature
输入特征来解析它,以构建密集的张量而不是稀疏的张量。