我正在研究一个简单的Naive Bayes文本分类器,它使用Brown Corpus进行测试和训练数据。到目前为止,在使用简单方法而没有任何预处理的情况下,我得到了53%的准确度。为了改进我的分类器,我添加了一些预处理(停用词,lematizing,词干,pos-tagging),但我的表现似乎变得更糟(11%)。我究竟做错了什么? 我只是从Python开始,所以感谢我能得到任何帮助。
import nltk, random
from nltk.corpus import brown, stopwords
from nltk.stem.porter import PorterStemmer
documents = [(list(brown.words(fileid)), category)
for category in brown.categories()
for fileid in brown.fileids(category)]
random.shuffle(documents)
stop = set(stopwords.words('english'))
without_stop = [w for w in brown.words() if w not in stop]
lowercase = [w.lower() for w in without_stop] # lowercase
porter = PorterStemmer()
stemmed = [porter.stem(w) for w in lowercase]
wnl = nltk.WordNetLemmatizer()
lemmatized = [wnl.lemmatize(w) for w in stemmed]
tagged = nltk.pos_tag(lemmatized)
all_words = nltk.FreqDist(tagged)
word_features = list(all_words.keys())[:2000]
def document_features(document):
document_words = set(document)
features = {}
for word in word_features:
features['contains({})'.format(word)] = (word in document_words)
return features
featuresets = [(document_features(d), c) for (d,c) in documents]
train_set, test_set = featuresets[100:], featuresets[:100]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set))
答案 0 :(得分:0)
也许我错过了一些东西,但我不能解决你想要解决的分类问题。
您正在随机排列文档,然后在使用词干,pos-tagging等大量额外数据丰富每个文档后,将文档拆分为测试和训练集。
分裂如何跟随类之间的划分?您获得纯文本的结果更好,因为问题空间的排名要小得多(没有其他功能爆炸问题空间的大小)。因此,对于相对较小的布朗语料库,分类器可以分解问题。
说明您的分类问题并将功能与其对齐。然后编码。