文本分类+多项式朴素贝叶斯+ Python:我是否应该标准化和/或缩放数据?

时间:2018-10-08 07:02:20

标签: machine-learning nlp text-classification naivebayes multinomial

我正在研究英语的文本分类问题。问题解释如下:

我有一个事件数据集,该数据集包含四列-事件名称,事件描述,事件类别,category_id。数据集中大约有32个类别,例如旅行,体育,教育,商务等。我必须根据事件的名称和描述将每个事件分类为一个类别。

这是我到目前为止所做的:

  1. 删除所有category_id条目为空的行,并删除重复行。
  2. 删除了不可读的字符,多余的空格,最长不超过2的单词,并使所有字符变为小写。
  3. 删除停用词并阻止词干。
  4. 将数据拆分为训练集和测试集。
  5. 从火车套装中产生一袋单词。
  6. 从测试集中产生一袋单词。
  7. 使用多项朴素贝叶斯找到用于加法平滑的最佳alpha。
  8. 最后,预测类别具有最佳alpha。

现在我想知道:

 1. Should I apply standardization and/or scaling to my data?
 2. If yes, then in which step should I apply it?

0 个答案:

没有答案