Question

我编写了一个Python代码，用于训练来自NLTK库的Brill Tagger大约8000个英语句子并标记大约2000个句子。

Brill Tagger需要花费很多时间来训练，最后当它完成训练时，程序的最后一个语句有一些微小的语法错误，因此代码没有返回输出。

是否可以将标记器保持在训练状态，同时纠正错误并使程序运行而无需等待几个小时才能对标记器进行相同数据的培训？

Answer 1

是的！你有几个选择。我经常使用的一件快速而又脏的东西就是掉到控制台。将其添加到脚本的末尾（培训结束后）：

model = train_for_hours_and_hours()

import code
code.interact(local=locals())

这与仅运行python3的REPL完全相同，除了所有变量（包括训练过的模型）都可用：

$ python3 script.py
[ ... THREE HOURS LATER ... ]
> print(model)
<NLTK.Model ...>

更长久的解决方案是序列化您的模型并在培训结束后立即将其保存到文件中。为此，您可以使用pickle：

import pickle
MODEL_FILE = 'model.pickle'

try:
    # Try to load the model from disk
    with open(MODEL_FILE, 'rb') as f:
        model = pickle.load(f)
except FileNotFoundError:
    # Train the model if it doesn't exist yet
    model = train_for_hours_and_hours()
    with open(MODEL_FILE, 'wb') as f:
        pickle.dump(f, model)

# now use `model` here

是否可以修改和运行部分Python程序而无需一次又一次地运行所有这些程序？

1 个答案: