我正在编写一个Python的小情绪分析程序,通过培训Naive Bayes分类器以及在线评论的正面和反面示例。
我的问题涉及特征提取步骤 - 目前我使用一个单词来保存所有功能。我有一些功能可以覆盖功能集中的单词列表并删除停用词,以及一个词干分析器和一个词形变换器。我可以启用或禁用这些功能,以便查看它们对分类器最终精度的影响。
我以前从未做过情绪分析,所以请原谅我这是一个基本问题。
我是否只在单词功能集上运行这些功能,还是需要在评论中的文本上运行?当我在功能集上运行这些功能时,准确度量似乎不会改变或下降,所以我想也许我需要在测试/训练集中的审阅文本上运行它。