Question

我在NLP中有一项任务是训练分类器并将其导出为人类可读的格式。这样做的最佳应用是什么。

我尝试使用NLTK，但它没有人类可读格式的导出功能，例如

这是一个分类器

classifier = nltk.NaiveBayesClassifier.train(train_set)

我需要它来保存并在以后用于我自己的需要，而不需要任何与NLTK的连接

我知道 pickle 技巧，但它不是完全人类可读的。

用于训练分类器并将其导出到文件的最佳和最舒适的工具是什么。

Answer 1

似乎你并不真正理解你想要做什么。如果我理解正确 - 您希望您的训练模型/分类器的准确程度。

在这种情况下，您不应该关心您使用的SW包类型，而是要使用什么算法。这意味着您不应该使用所谓的黑盒算法，例如神经网络，贝叶斯......尝试使用决策树（例如J48） - 它会为您提供指导（人类可读的）知识如何运作。

Answer 2

xhudik是对的。贝叶斯将成为一个黑盒算法，但如果我理解你的意图 - 你可能想要理解某些词/特征输入的系数，为什么不只是走过模型？即使使用Naive Bayes，您也可以检查分类器输出的似然值，并将它们序列化为文件。

示例：您有3个类：A，B和C

        A     B      C
n1 ->  .2    .6     .2
n2 ->  .5    .1     .4
.
.
.