我对情绪分析相对较新,并且一直在阅读斯坦福大学教授Christopher Potts的优秀在线教程。
在his tutorial under the section on machine learning classifiers中,他简要讨论了一个轻量级,准确的分类器"并建议以下步骤:
- 从一组N个固定情绪词典L开始。对于我的实验,我使用固定极性词典,IMDB分数, 体验项目O / E向量,以及来自的情感丰富的类 哈佛大将军询问者和LIWC。 总数 预测因子是39 ,所有这些都是数字。
- ...
- 对于给定的文本,功能函数简单地总结了所有单词'每个 39个预测变量的得分,然后进行归一化 他们按文字的长度。因此,每个文本被建模为矢量 39个号码。
- ...
醇>
我想知道他从哪里获得了这39个功能?根据我的理解,词典有数千个条目,使用词袋模型产生数千个功能。他是如何从数千种功能转变为39种功能的?他显然必须做一些功能选择,但我不能推断他的方法或选择标准。
答案 0 :(得分:0)
我怀疑他还没有在这里使用词袋功能。可能,这些数据源中的每一个都是一些特征:哈佛通用询问者肯定有几个类别,并且可能存在每个类别中的单词出现多少次的特征。同样,体验项目向量每个都有几个维度,这会创建一些功能。
这里的重点是尝试制作一个轻量级,可推广的分类器。如果您想要适合特定的数据集,n-gram功能几乎肯定更好。但是,如果您的培训数据有限,或者想要在不同的领域进行推广,那么这些数据会非常密集。功能有价值。