我是使用tensorflow进行深度学习的新手。我正在尝试使用seq2seq模型示例代码。
我想明白:
图层数,图层大小和批次的最小值是多少 我可以开始的大小,以便能够测试seq2seq 模型具有令人满意的准确度?
此外,内存方面所需的最低基础架构设置 和cpu能力在最大范围内训练这种深度学习模型 几个小时的时间。
我的经验是训练seq2seq模型来构建一个神经网络 2层大小900和批量大小4
对于更快的培训有哪些帮助 - 更多的RAM容量,多个CPU核心或CPU + GPU组合核心?
答案 0 :(得分:1)
免责声明:我也是新人,在很多方面都可能出错。
我是使用tensorflow进行深度学习的新手。我正在尝试一个 seq2seq模型示例代码。
我想明白:
图层数,图层大小和批次的最小值是多少 我可以开始测量seq2seq模型的大小 准确度如何?
我认为这只需要你的实验。找出适用于您的数据集的内容。我听过一些建议:如果可以的话,不要选择自己的建筑 - 找到经过试验和测试的其他人。如果您也要在更广泛的网络之间做出选择,那么似乎更广泛的网络比更广泛的网络更好。如果你有记忆,我也认为更大的批量大小更好。我听说要最大化网络规模,然后进行规范,这样你就不会过度适应。
我的印象是这些都是一个很大的问题,没有人真正知道答案(这可能是非常错误的!)。我们都喜欢选择图层大小/层数的聪明方法,但没有人确切知道如何改变这些因素会影响培训。
此外,在内存和CPU能力方面需要的最小基础设施设置来深入培训 在几个小时的最长时间内学习模型。
根据您的型号,这可能是一个不合理的请求。似乎有些型号可以训练数百甚至数千小时(在GPU上)。
我的经验 一直在训练seq2seq模型来构建一个有2层的神经网络 尺寸900和批量4 花了大约3天的时间训练4GB RAM,3GHz Intel i5单核 处理器。花了大约1天的时间训练8GB内存,3GHz Intel i5 单核处理器。这有助于加快培训速度 - 更多 RAM容量,多CPU内核或CPU + GPU组合核心?
我相信GPU会对您有所帮助。我看过一些使用CPU的东西(异步演员评论家或其他东西?他们没有使用锁定),看起来CPU更好,但我认为GPU会给你带来巨大的加速。