第一种情况：我们希望输出具有固定的批量大小

Question

我的输入管道中出现以下错误：

tensorflow.python.framework.errors_impl.InvalidArgumentError：不能在组件0中具有不同形状的批量张量。第一个元素具有形状[2,48,48,3]和元素1具有形状[27,48,48,3]。

使用此代码

dataset = tf.data.Dataset.from_generator(generator,
                                         (tf.float32, tf.int64, tf.int64, tf.float32, tf.int64, tf.float32))

dataset = dataset.batch(max_buffer_size)

这是完全合乎逻辑的，因为批处理方法尝试创建（batch_size，？，48,48,3）Tensor。但是我希望它为这种情况创建一个[29,48,48,3] Tensor。所以连接而不是堆栈。这可以用tf.data吗？

我可以在生成器函数中用Python连接，但我想知道这是否也可以用tf.data管道

Answer 1

第一种情况：我们希望输出具有固定的批量大小

在这种情况下，生成器生成形状[None, 48, 48, 3]的值，其中第一个维度可以是任何值。我们要批量处理这个输出为[batch_size, 48, 48, 3]。如果我们直接使用tf.data.Dataset.batch，我们会遇到错误，因此我们需要首先解开。

要做到这一点，我们可以在批处理前使用tf.contrib.data.unbatch：

dataset = dataset.apply(tf.contrib.data.unbatch())
dataset = dataset.batch(batch_size)

以下是生成器生成[1]，[2, 2]，[3, 3, 3]和[4, 4, 4, 4]的完整示例。

我们无法直接批量处理这些输出值，因此我们将其解包然后批处理：

def gen():
    for i in range(1, 5):
        yield [i] * i

# Create dataset from generator
# The output shape is variable: (None,)
dataset = tf.data.Dataset.from_generator(gen, tf.int64, tf.TensorShape([None]))

# The issue here is that we want to batch the data
dataset = dataset.apply(tf.contrib.data.unbatch())
dataset = dataset.batch(2)

# Create iterator from dataset
iterator = dataset.make_one_shot_iterator()
x = iterator.get_next()  # shape (None,)

sess = tf.Session()
for i in range(5):
    print(sess.run(x))

这将打印以下输出：

[1 2]
[2 3]
[3 3]
[4 4]
[4 4]

第二种情况：我们想要连接变量大小的批次

更新（03/30/2018）：我删除了之前使用分片的答案，这会大大降低性能（请参阅评论）。

在这种情况下，我们希望连接固定数量的批次。问题是这些批次的大小可变。例如，数据集产生[1]和[2, 2]，我们希望得到[1, 2, 2]作为输出。

这里解决此问题的一种快速方法是创建一个围绕原始生成器的新生成器。新生成器将生成批量数据。 （感谢Guillaume提出的想法）

以下是生成器生成[1]，[2, 2]，[3, 3, 3]和[4, 4, 4, 4]的完整示例。

def gen():
    for i in range(1, 5):
        yield [i] * i

def get_batch_gen(gen, batch_size=2):
    def batch_gen():
        buff = []
        for i, x in enumerate(gen()):
            if i % batch_size == 0 and buff:
                yield np.concatenate(buff, axis=0)
                buff = []
            buff += [x]

        if buff:
            yield np.concatenate(buff, axis=0)

    return batch_gen

# Create dataset from generator
batch_size = 2
dataset = tf.data.Dataset.from_generator(get_batch_gen(gen, batch_size),
                                         tf.int64, tf.TensorShape([None]))

# Create iterator from dataset
iterator = dataset.make_one_shot_iterator()
x = iterator.get_next()  # shape (None,)


with tf.Session() as sess:
    for i in range(2):
        print(sess.run(x))

这将打印以下输出：

[1 2 2]
[3 3 3 4 4 4 4]

Answer 2

使用tensorflow 2对我有用的是

1）在创建数据集时设置repeat（）函数，因此进行替换

data = tf.data.Dataset.from_tensor_slices(x)

作者

data = tf.data.Dataset.from_tensor_slices(x).repeat()

B）将step / epoch参数传递给fit方法，因此进行替换

history = model.fit(dataset, epochs=EPOCHS, callbacks=[checkpoint_callback])

作者

history = model.fit(dataset, epochs=EPOCHS, steps_per_epoch=data[0]/BUFFER_SIZE, callbacks=[checkpoint_callback])

Tensorflow：tf.data.Dataset，无法在组件0

2 个答案:

第一种情况：我们希望输出具有固定的批量大小

第二种情况：我们想要连接变量大小的批次