使用SVMlight
或LIBSVM
将短语分类为正面或负面(情感分析)时,有没有办法确定哪些是影响算法决策的最有影响力的单词?例如,发现单词"good"
有助于将短语确定为正面等等。
答案 0 :(得分:5)
如果你使用线性内核然后是 - 只需计算权重向量:
w = SUM_i y_i alpha_i sv_i
其中:
sv
- 支持向量alpha
- 使用SVMlight找到的系数y
- 对应的班级(+1或-1)(在某些实现中alpha
已经乘以y_i
,因此它们是正/负)
一旦你有w
,其维度为1 x d
,其中d
是你的数据维度(单词包中的单词数/ tfidf表示),只需选择高维度绝对值(无论是正面还是负面),以便找到最重要的特征(单词)。
如果您使用某些内核(如RBF),那么答案是否定的,没有直接的方法来取出最重要的功能,因为分类过程是以完全不同的方式执行的。
答案 1 :(得分:3)