我正在处理来自nltk的nltk-data中包含的一些语料库,以找出某些算法。
所以我的代码通常都是这种风格:
import re, nltk, random
from nltk.corpus import reuters
def find_test_and_train_data():
return [fileid for fileid in reuters.fileids() if re.match(r"^training/", fileid)], [fileid for fileid in reuters.fileids() if re.match(r"^test/", fileid)]
def generate_random_data(train_and_test_fileids):
random.seed(348) ; random.shuffle(train_and_test_fileids[0])
return train_and_test_fileids[0][2000:], train_and_test_fileids[0][:2000]
def fileid_words(fileid):
return [word.lower() for line in reuters.words(fileid) for word in line.split() if re.match('^[A-Za-z]+$', word)]
if __name__ == '__main__':
train_fileids, dev_fileids = generate_random_data(find_test_and_train_data())
train_data=fileid_words(train_fileids)
dev_data=fileid_words(dev_fileids)
因此,如果我将其运行到交互式解释器中,我就可以在train_data
,dev_data
及其相应的文件组上执行任务,而无需重新填充变量(这是一项非常耗时的任务)。
但是,我希望能够将其写入 .py 文件,以便我可以保存统计上有趣的算法。
我可以通过双键输入来实现这一点,例如:当我在解释器中使用函数时,然后将其复制+粘贴到.py文件中,但这是非常低效的,并且我失去了我的IDE的功能。
是否有任何IDE或Python模块可以自动保持Python脚本在内存中运行,或者将变量的值(例如test_data
)存储在数据库中?
感谢所有建议
答案 0 :(得分:0)
特定于python的方法是使用pickle:
http://docs.python.org/library/pickle.html
您可以将变量保存到磁盘,然后将其加载回来:
import pickle
data1 = {'a': [1, 2.0, 3, 4+6j],
'b': ('string', u'Unicode string'),
'c': None}
output = open('data.pkl', 'wb')
pickle.dump(data1, output)
output.close()
input = open('data.pkl', 'rb')
data1 = pickle.load(pkl_file)
如果您想要保存将来与其他语言兼容的格式,请考虑使用JSON。
答案 1 :(得分:0)
另一个解决方案是使用inspect模块从中获取代码字符串并将其保存到file.py中。 如果使用inspect模块,您将能够获得代码对象和事件源代码,然后能够将原始代码转换为字符串,然后将其放入类似文件的持久存储中。