自动编码器可减少输入数据大小

时间:2013-12-04 13:17:32

标签: python tensorflow neural-network keras autoencoder

目前,我想使用自动编码器来减少输入数据大小,以便将减少的数据用于其他神经网络。我的任务是拍摄视频,然后将视频图像提供给自动编码器。当我只使用几个图像作为输入时,自动编码器工作正常,但是当我想要一系列图像时,它不会。

想象一下从一个球移动视频。我们有200个图像。如果我对200个图像使用自动编码器,则误差很大但如果我仅使用5个图像,则重建误差很小且可接受。似乎自动编码器不会学习球循环的顺序或时间运动。我也尝试表示堆叠自动编码器,但结果并不好。

是否有人知道问题是什么,或者可以使用自动编码器执行此任务?

1 个答案:

答案 0 :(得分:0)

自动编码器/可变自动编码器不了解序列,而是学习将输入数据“映射”到尺寸较小的潜在空间。例如,如果图像为64x64x3,则可以将其映射到32 dim张量/数组。

要学习图像序列,您需要将自动编码器编码器部分的输出连接到RNN(LSTM / GRU),后者可以了解编码帧的序列(潜伏空间中的连续帧)。之后,RNN的输出可以连接到自动编码器的解码器部分,因此您可以看到重建的帧。

Here you can find a GitHub project which tries to encode the video frames and then predict sequences