应用错误收集

我正在编写一个Python的小情绪分析程序，通过培训Naive Bayes分类器以及在线评论的正面和反面示例。

我的问题涉及特征提取步骤 - 目前我使用一个单词来保存所有功能。我有一些功能可以覆盖功能集中的单词列表并删除停用词，以及一个词干分析器和一个词形变换器。我可以启用或禁用这些功能，以便查看它们对分类器最终精度的影响。

我以前从未做过情绪分析，所以请原谅我这是一个基本问题。

我是否只在单词功能集上运行这些功能，还是需要在评论中的文本上运行？当我在功能集上运行这些功能时，准确度量似乎不会改变或下降，所以我想也许我需要在测试/训练集中的审阅文本上运行它。