应用错误收集

文本分类+多项式朴素贝叶斯+ Python：我是否应该标准化和/或缩放数据？

时间：2018-10-08 07:02:20

标签： machine-learning nlp text-classification naivebayes multinomial

我正在研究英语的文本分类问题。问题解释如下：

我有一个事件数据集，该数据集包含四列-事件名称，事件描述，事件类别，category_id。数据集中大约有32个类别，例如旅行，体育，教育，商务等。我必须根据事件的名称和描述将每个事件分类为一个类别。

这是我到目前为止所做的：

删除所有category_id条目为空的行，并删除重复行。
删除了不可读的字符，多余的空格，最长不超过2的单词，并使所有字符变为小写。
删除停用词并阻止词干。
将数据拆分为训练集和测试集。
从火车套装中产生一袋单词。
从测试集中产生一袋单词。
使用多项朴素贝叶斯找到用于加法平滑的最佳alpha。
最后，预测类别具有最佳alpha。

现在我想知道：

 1. Should I apply standardization and/or scaling to my data?
 2. If yes, then in which step should I apply it?

0 个答案:

没有答案