我想使用超过2000万行的数据集在tf中训练模型。执行此操作时是否有任何限制/错误?我有什么方法/技术可以尝试有效地执行此操作吗?问题是简单的分类,但我从未训练过这么大的数据集。任何意见将是有益的。谢谢
答案 0 :(得分:0)
TensorFlow可以处理跨数万个GPU传递的 PB 信息-问题是,您的代码是否可以正确管理资源,并且可以您的硬件处理吗?这称为distributed training。主题非常广泛,但是您可以从setting up a GPU开始-包括安装CUDA和cuDNN。您也可以参考输入数据管道optimization。
我建议您通过Anaconda 3处理所有安装,因为它可以处理软件包的兼容性-这是guide或two的开始。
最后,您的主要硬件限制是RAM和GPU内存;前者用于模型可以处理的最大数组大小(例如8GB),后者用于模型可以容纳的最大模型大小。