Question

我正在尝试使用NLTK训练朴素贝叶斯分类器进行多类文本分类。但我无法访问原始文本。我提供的是一个SVM Light格式的文件（每个行的一个实例具有功能：值对）。我只需导入此文件，并使用此数据集训练和测试Naive Bayes分类器。我想知道是否有办法将此文件导入NLTK并直接用于训练分类器。

Answer 1

根据nltk自己的文档，可以实现以下目标：

摘自文档：

scikit-learn（http://scikit-learn.org）是一个机器学习库   对于Python。它支持许多分类算法，包括   支持向量机，朴素贝叶斯，逻辑回归（MaxEnt）和决策树。

这个包实现了scikit-learn分类器的包装。至   使用这个包装器，构造一个scikit-learn估计器对象，然后使用   构建SklearnClassifier。例如，用线性SVM包装   默认设置：

示例：

>>> from sklearn.svm import LinearSVC >>> from nltk.classify.scikitlearn import SklearnClassifier >>> classif = SklearnClassifier(LinearSVC())

请参阅：http://www.nltk.org/api/nltk.classify.html#module-nltk.classify.scikitlearn

在NLTK中导入SVM光文件格式

1 个答案: