我正在尝试使用NLTK训练朴素贝叶斯分类器进行多类文本分类。但我无法访问原始文本。我提供的是一个SVM Light格式的文件(每个行的一个实例具有功能:值对)。我只需导入此文件,并使用此数据集训练和测试Naive Bayes分类器。我想知道是否有办法将此文件导入NLTK并直接用于训练分类器。
答案 0 :(得分:2)
根据nltk自己的文档,可以实现以下目标:
摘自文档:
scikit-learn(http://scikit-learn.org)是一个机器学习库 对于Python。它支持许多分类算法,包括 支持向量机,朴素贝叶斯,逻辑回归(MaxEnt)和决策树。
这个包实现了scikit-learn分类器的包装。至 使用这个包装器,构造一个scikit-learn估计器对象,然后使用 构建SklearnClassifier。例如,用线性SVM包装 默认设置:
示例:强>
>>> from sklearn.svm import LinearSVC
>>> from nltk.classify.scikitlearn import SklearnClassifier
>>> classif = SklearnClassifier(LinearSVC())
请参阅:http://www.nltk.org/api/nltk.classify.html#module-nltk.classify.scikitlearn