使用我自己的语料库在Python NLTK中进行类别分类

时间:2012-01-11 11:13:24

标签: python nlp machine-learning nltk corpus

我是一名NLTK / Python初学者并设法使用CategorizedPlaintextCorpusReader加载我自己的语料库,但我如何实际训练和使用数据进行文本分类?

>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader
>>> reader = CategorizedPlaintextCorpusReader('/ebs/category', r'.*\.txt', cat_pattern=r'(.*)\.txt')
>>> len(reader.categories())
234

1 个答案:

答案 0 :(得分:6)

假设您想要一个朴素的贝叶斯分类器,其中包含单词功能:

from nltk import FreqDist
from nltk.classify.naivebayes import NaiveBayesClassifier

def make_training_data(rdr):
    for c in rdr.categories():
        for f in rdr.fileids(c):
            yield FreqDist(rdr.words(fileids=[f])), c

clf = NaiveBayesClassifier.train(list(make_training_data(reader)))

生成的clf classify方法可用于任何FreqDist字词。

(但请注意:从您的cap_pattern开始,您的语料库中的每个文件似乎都有示例。请检查这是否真的是您想要的。)