如何处理神经网络训练需要随机访问的大数据

时间:2016-11-24 05:20:10

标签: neural-network deep-learning bigdata

我的情况是这样的。从大数据集中选择两个图像(无法加载到内存中)并将其与神经网络进行比较。每个训练样本由随机从数据集中挑选两个图像组成。需要此随机过程来消除案例之间的协方差。

但我无法从记忆中挑选两张图片。因为计算机无法承受数据集的大小。因此每次我制作样品时,我都需要访问慢速磁盘。这种磁盘访问时间大大减慢了学习过程。 到目前为止,我最好的想法是将数据集随机分成多个小内存数据集。然后,逐个完整地训练每个小数据集的神经网络。

但是有可能训练的模型可以被后来的小数据集破坏。

那么处理这种随机大数据的方法有什么好办法吗?

1 个答案:

答案 0 :(得分:0)

压缩图像进行训练怎么样?

在训练网络后,分类通常非常快。您可以尝试压缩一组图像并使用例如一个队列从内存缓冲它们,该队列每隔n毫秒从一个线程接收一个新的随机选择的图像。另一个线程从队列中选择一个图像并对其进行处理以进行训练。生产者/消费者模式可能是此类任务的良好选择。 训练后,您可以对分类任务进行在线压缩。这会稍微降低性能,但因为分类通常很快,所以就足够了。