如何在ubuntu上训练张量流模型?

时间:2018-04-25 14:05:59

标签: tensorflow ubuntu-16.04 conv-neural-network

我正在尝试在Ubuntu 16.4机器上训练张量流模型。然而,TF在训练开始后很快消耗掉所有可用的RAM(8GB),并且被OOM收割机杀死。如果我禁用OOM杀手,它会以分段错误终止。

到目前为止,我的搜索结果并未表明您可以限制RAM张量流使用量,只有GPU相关参数可配置,但不能解决问题。如果我使用ulimit linux命令将python进程的RAM限制为4GB,那么脚本将永远停滞不动甚至无法启动 - 它几乎就像它从未开始执行脚本的main方法中那样

我已经在网上搜索过很多关于这个主题的教程,似乎没有人遇到过这个问题。我的问题是 - 人们如何实际做到这一点?显然我错过了一些东西。这个问题并没有在Windows上体现出来,培训完成了,但是速度极慢。

编辑:有问题的功能就是这个:

dependencies:
- libcxx=4.0.1=h579ed51_0
- libcxxabi=4.0.1=hebd6815_0
- pandas=0.22.0=py36h0a44026_0
- pyspark=2.3.0=py36_0
- certifi=2016.2.28=py36_0
- click=6.7=py36_0
- cycler=0.10.0=py36_0
- freetype=2.5.5=2
- icu=54.1=0
- libpng=1.6.30=1
- matplotlib=2.0.2=np113py36_0
- mkl=2017.0.3=0
- numpy=1.13.1=py36_0
- openssl=1.0.2l=0
- pip=9.0.1=py36_1
- py4j=0.10.6=py36_0
- pyparsing=2.2.0=py36_0
- pyqt=5.6.0=py36_2
- python=3.6.2=0
- python-dateutil=2.6.1=py36_0
- pytz=2017.2=py36_0
- qt=5.6.2=2
- readline=6.2=2
- requests=2.14.2=py36_0
- scikit-learn=0.19.0=np113py36_0
- scipy=0.19.1=np113py36_0
- setuptools=36.4.0=py36_1
- sip=4.18=py36_0
- six=1.10.0=py36_0
- sqlite=3.13.0=0
- tk=8.5.18=0
- wheel=0.29.0=py36_0
- xz=5.2.3=0
- zlib=1.2.11=0

如有必要,我可以提供其他说明。

0 个答案:

没有答案