在tensorflow中,我计划构建一些模型,并将其与其他基线模型相比较,以匹配不同的训练数据子集。即我想用相同的训练数据子集训练我的模型和基线模型。
以天真的方式实现queue-runner和TFreaders(例如im2txt),这需要复制每个子集选择的数据,这是我的情况,需要使用非常大量的磁盘空间。
最好是,如果有方法告诉队列只从指定的id子集中获取样本,或忽略样本(如果它们不是id的给定子集的一部分)。
如果我理解正确忽略样品并非易事,因为它需要将来自不同读数的样品缝合到一个批次中。
有人知道这样做的方法吗?或者可以建议一种替代方法,不需要将所有训练数据预先加载到RAM中?
谢谢!