我正在尝试学习如何使用tf.data.TFRecordDataset()
,但我对此感到困惑。我有一个tfrecords
文件,其中包含我的图片(24K)和标签,我已将所有图片的大小调整为100x100x3。
首先,我使用tfrecords
加载了tf.data.TFRecordDataset
文件,并解析了我在代码中看到的数据和其他内容。然后我写了一个简单的模型来学习tfrecord
文件的使用,但是当我试图运行时我遇到了问题并且遇到了错误。我在网上搜索过但找不到任何答案。
以下是我的代码: Train.py
import tensorflow as tf
import numpy as np
import os
import glob
NUM_EPOCHS = 10
batch_size = 128
def _parse_function(example_proto):
features = {"train/image": tf.FixedLenFeature((), tf.string, default_value=""),
"train/label": tf.FixedLenFeature((), tf.int64, default_value=0)}
parsed_features = tf.parse_single_example(example_proto, features)
image = tf.decode_raw(parsed_features['train/image'], tf.float32)
label = tf.cast(parsed_features['train/label'], tf.int32)
image = tf.reshape(image, [100, 100, 3])
image = tf.reshape(image, [100*100*3])
return image, label
filename = 'train_data1.tfrecords'
dataset = tf.data.TFRecordDataset(filename)
dataset = dataset.map(_parse_function)
#dataset = dataset.repeat(NUM_EPOCHS)
dataset = dataset.batch(batch_size=batch_size)
iterator = dataset.make_initializable_iterator()
image, label = iterator.get_next()
w = tf.get_variable(name='Weights',shape= [30000,3] , initializer=tf.random_normal_initializer(0, 0.01))
b = tf.get_variable(name='Biases', shape= [1, 3],initializer=tf.zeros_initializer())
logits = tf.matmul(image, w) + b
loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(logits=logits, labels=label, name='Entropy'), name='loss')
optimizer = tf.train.AdamOptimizer(0.001).minimize(loss)
preds = tf.nn.softmax(logits)
correct_preds = tf.equal(tf.argmax(preds, axis=1), tf.argmax(label, axis=1))
accuracy = tf.reduce_sum(tf.cast(correct_preds, tf.float32))
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
for i in range(2):
sess.run(iterator.initializer)
total_loss = 0
n_batches = 0
try:
while True:
_, l = sess.run([optimizer, loss])
total_loss += l
n_batches +=1
except tf.errors.OutOfRangeError:
pass
print('Average loss epoch {0}: {1}'.format(i, total_loss/n_batches))
这是图像的输出:
<tf.Tensor 'IteratorGetNext:0' shape=(?, 30000) dtype=float32>
和标签是:
<tf.Tensor 'IteratorGetNext:1' shape=(?,) dtype=int32>
这次我收到了这个错误:
logits和标签必须大小相同:logits_size = [128,3] labels_size = [1128]。
当我重新标记标签(我认为,我在这里做错了)到[128,1] label = tf.reshape(label,[128,1])
我会收到此错误:
imension大小必须可被3整除,但是为128 带有输入的'gradients / Entropy / Reshape_grad / Reshape'(op:'Reshape') 形状:[128,1],[2]和输入张量计算为部分 形状:输入[1] = [?,3]。
我正在尝试对我的3个班级进行分类:0表示自行车,1表示公共汽车,2表示汽车。
这是代码我如何阅读我的图片并标记为tfrecords
。
代码 tfrecordWriter.py
shuffle_data = True
cat_dog_train_path = './Train/*.jpg'
addrs = glob.glob(cat_dog_train_path)
labels = [0 if 'bike' in addr else 1 if 'bus' in addr else 2 for addr in addrs]
if shuffle_data:
c = list(zip(addrs, labels))
shuffle(c)
addrs, labels = zip(*c)
train_addrs = addrs[:]
train_labels = labels[:]
train_shape = []
def load_image(addr):
img = cv2.imread(addr)
img = cv2.resize(img, (100, 100), interpolation=cv2.INTER_AREA)
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
img = img.astype(np.float32)
return img
def _int64_feature(value):
return tf.train.Feature(int64_list=tf.train.Int64List(value=[value]))
def _bytes_feature(value):
return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))
train_filename = 'train_data1.tfrecords'
# open the TFRecords file
writer = tf.python_io.TFRecordWriter(train_filename)
for i in range(len(train_addrs)):
print ('Train data: {}/{}'.format(i+1, len(train_addrs)))
sys.stdout.flush()
img = load_image(train_addrs[i])
label = train_labels[i]
feature = {'train/label': _int64_feature(label),
'train/image': _bytes_feature(tf.compat.as_bytes(img.tostring()))}
example = tf.train.Example(features=tf.train.Features(feature=feature))
writer.write(example.SerializeToString())
writer.close()
sys.stdout.flush()
感谢
答案 0 :(得分:0)
问题出在这一行:
w = tf.get_variable(name='Weights',shape= [None, 100, 100, 3] , initializer=tf.random_normal_initializer(0, 0.01))
您指定权重具有张量流无法处理的形状shape=[None,100,100,3]
。由于错误说“必须完全定义新变量(权重)的形状”,因此您不能将None
作为权重的维度。在我看来,你把输入张量的形状与权重张量的形状混淆了。它看起来你没有在任何地方压平你的图像,所以你的模型没有任何意义。你在哪里:
logits = tf.matmul(image, w) + b
看起来您正试图将此问题视为简单的逻辑回归,并将图像的像素作为单个要素。这是一个不错的第一种方法(但通常会在图像上使用Conv-net),但您必须将图像展平为shape=[batchsize,30000]
的形状,然后您的权重将具有shape=[30000,num_labels]
的形状因此,在矩阵乘法结束时,您将得到形状shape=[batchsize,num_labels]
的最终输出。根据您的代码编写方式,我觉得您对数学或您要完成的操作背后有一些基本的误解。也许回顾一下你正在尝试做什么。
编辑:这里的问题是对算法正在做什么的基本误解。该算法产生3个输出,因此标签必须有3个相应的标签才能匹配3个输出。您的标签不能只是一个数字 - 0,1或2,具体取决于班级。您的标签必须是3个数字,每个数字都会告诉您图像是否在该类中。换句话说,您必须使用3分量(单热)矢量而不是1分量编号标记图像。每张图片的标签应如下所示:
[1,0,0] - bike
[0,1,0] - bus
[0,0,1] - car
因此,您的标签形状(128,3)
应与输出形状(128,3)
相同。