朴素贝叶斯的文本分类

时间:2018-08-15 12:52:37

标签: python nlp nltk text-classification textblob

我倾向于NLP,并且注意到基于Naive Bayes的TextBlob分类(textblob是在NLTK之上构建的)https://textblob.readthedocs.io/en/dev/classifiers.html在训练数据为句子列表时可以很好地工作,而当训练数据是单独的时根本不起作用个单词(每个单词和指定的分类)。

为什么?

1 个答案:

答案 0 :(得分:1)

因为训练数据中没有单词。

通常应选择具有相同分布的训练和评估/测试数据。偏差或偏斜通常是有问题的。在极少数情况下,您可以训练模型做一件事情,然后使用它做其他事情。

在您的情况下,模型可能会将权重分布在句子中的单词上。因此,当您选择一个单词时,您只会得到一小部分表示的权重。

要使其正常工作,您应该在训练数据中添加单个单词示例。