CountVectorizer没有计算相关功能

时间:2019-05-22 10:55:40

标签: python nlp text-classification naivebayes countvectorizer

我正在对方言文本进行分类。我正在使用朴素的贝叶斯和countvectorizer。我发现没有考虑方言的许多相关功能。认为更多的是所有方言中非常常见的单词计数。如何对文本中的词汇表(只有某些方言具有)给予绝对权重(最高优先级),因此文本将被归类为该方言?而不是计算其他常见单词并将其分配给方言。

示例:

假设我有一个包含这4种方言的语料库,并经过训练大小为20K的语料库(每个方言都有5K条推文)。我正在测试以下任意推文:

  

您是X,我们会考虑的

现在,假设X是仅由方言A使用的单词。但是,其余的单词也在所有4种方言之间共享。并且在预测之后,碰巧该文本在方言B中,因为如果您计算剩余的单词,它恰好在方言B中更为流行。

我该如何解决?如何将其分类为方言A并优先使用X?

0 个答案:

没有答案