在NLTK中导入SVM光文件格式

时间:2014-03-24 03:38:05

标签: python nltk svmlight

我正在尝试使用NLTK训练朴素贝叶斯分类器进行多类文本分类。但我无法访问原始文本。我提供的是一个SVM Light格式的文件(每个行的一个实例具有功能:值对)。我只需导入此文件,并使用此数据集训练和测试Naive Bayes分类器。我想知道是否有办法将此文件导入NLTK并直接用于训练分类器。

1 个答案:

答案 0 :(得分:2)

根据nltk自己的文档,可以实现以下目标:

摘自文档:

  

scikit-learn(http://scikit-learn.org)是一个机器学习库   对于Python。它支持许多分类算法,包括   支持向量机,朴素贝叶斯,逻辑回归(MaxEnt)和决策树。

     

这个包实现了scikit-learn分类器的包装。至   使用这个包装器,构造一个scikit-learn估计器对象,然后使用   构建SklearnClassifier。例如,用线性SVM包装   默认设置:

示例:

>>> from sklearn.svm import LinearSVC
>>> from nltk.classify.scikitlearn import SklearnClassifier
>>> classif = SklearnClassifier(LinearSVC())

请参阅:http://www.nltk.org/api/nltk.classify.html#module-nltk.classify.scikitlearn