我正在开发机器学习分析程序,它必须在linux中处理27GB的文本文件。虽然我的生产系统不会经常重启,但我需要在家用电脑或开发环境中对其进行测试。
现在我经常断电,所以我很难连续工作3周。
我的程序读取文件,应用一些解析,将过滤后的数据保存在字典中的新文件中,然后将算法应用于这些文件,然后将结果保存到mysqlDB中。
我无法找到如何保存算法状态。
答案 0 :(得分:2)
关于算法状态的所有内容都保存在一个类中,您可以序列化该类并将其保存到磁盘:http://docs.python.org/2/library/pickle.html
答案 1 :(得分:1)
由于整个算法状态可以保存在一个类中,您可能希望使用pickle
(如上所述),but pickle
comes with it's own overloads and risks。
为了更好地执行相同操作,您可能需要查看this article,这解释了为什么您应该使用camel
库而不是pickle
。