我无法将语义和词汇信息转换为特征向量。
我知道以下信息
我的问题是如何将它们表示为真实值。我应该只选择每个特征(POS,sense等)的出现,即布尔向量,但是在n的情况下语义信息将丢失-grams(非常好的男孩和好男孩在情绪分析的情况下有不同的语义指导)。
答案 0 :(得分:0)
没有将名义值转换为实值向量的好方法。最常见的方法是你建议的 - 转换为布尔向量。在n-gram的情况下,我没有看到你的观点。你的目标是什么?你说你有POS,POS是单词的一个特征,另一方面,n-gram在单个单词级别上没有任何意义,而是作为一种表示句子的一部分。你的意思是“它出现的n-gram”?它与“之前的单词”(或之前的单词n-1)完全相同,并且您不会丢失任何信息(简单地说,每个“前一个”单词都有k个维度,其中k是词汇表的大小)。请注意,您的代表将巨大。