基于SVM的情感分析中的特征

时间:2014-04-23 10:31:32

标签: machine-learning nlp nltk svm libsvm

我无法将语义和词汇信息转换为特征向量。

我知道以下信息

  • 部分语音标记 - POS标记符输出,形容词,动词
  • Word Sense- Word Sense Disambiguation of Bank of bank - financial institution,heap
  • 本体信息 - 前哺乳动物,位置
  • n-gram - 前男友
  • 主打词 - 表演行为的根词

我的问题是如何将它们表示为真实值。我应该只选择每个特征(POS,sense等)的出现,即布尔向量,但是在n的情况下语义信息将丢失-grams(非常好的男孩和好男孩在情绪分析的情况下有不同的语义指导)。

1 个答案:

答案 0 :(得分:0)

没有将名义值转换为实值向量的好方法。最常见的方法是你建议的 - 转换为布尔向量。在n-gram的情况下,我没有看到你的观点。你的目标是什么?你说你有POS,POS是单词的一个特征,另一方面,n-gram在单个单词级别上没有任何意义,而是作为一种表示句子的一部分。你的意思是“它出现的n-gram”?它与“之前的单词”(或之前的单词n-1)完全相同,并且您不会丢失任何信息(简单地说,每个“前一个”单词都有k个维度,其中k是词汇表的大小)。请注意,您的代表将巨大