我有一个模型可以训练不适合RAM的大型数据集。因此,基本上我的计划是对数据集进行切片,以创建一个DataSet
实例,并为每个块使用输入矢量和相关标签。例如。如果我有1M个输入向量/标签,则将它们分成10个块,每个块有100K条记录。
然后,将一个块放入2个INDArray
对象(用于输入和标签)中,创建一个DataSet
并使用该数据集调用model.fit()
,对每个块重复此过程,并重复直到说模型的得分达到一定值为止。
我的问题是:
1.我是否正确理解该过程?
2. INDArray
实例可以重用吗?分配一次,然后一次又一次地用数据集块填充它们是否正确?
答案 0 :(得分:0)
您无需执行任何操作。工作区已经解决了您的分配问题: http://deeplearning4j.org/workspaces
只需使用标准datavec-> recordreaderdatasetiterator->数据集模式。 那已经为您处理了迷你批。