我正在scikit learning中使用线性SVM执行二进制分类任务。我使用名义特征和词向量。我使用预先训练的Google word2vec获得了单词向量,但是,我不确定SVM如何将单词向量作为特征来处理。
似乎我需要将每个向量“拆分”为300个单独的特征(= 300个向量维),因为我无法将向量作为一个整体传递给SVM。但这似乎不正确,因为矢量应被视为一个功能。
在这种情况下,表示向量的正确方法是什么?
答案 0 :(得分:0)
从SVM的角度来看,单词向量的每个维度将是一个单独的数字特征-该向量中的每个维度代表一个表示不同内容的数字度量。
非SVM分类器也是如此。例如,如果您有一个神经网络,而您的输入特征是长度为300的单词向量,并且(为一个简单的示例起见)说明该单词是否为大写,那么您可以将这些内容连接起来,将有301个数字作为您的输入;您会像对待这300个维度一样对待该功能。