使用python和scikit学习SVM和word2vec的文本分类

时间:2018-02-14 14:10:01

标签: python scikit-learn svm

我想训练SVM将2个给定的文本序列分类为语义上相等(1)或不相等(0)。我想使用googles预训练的word2vec模型用它的矢量表示来替换2个文本序列中的每个单词。然后,我想使用这些矢量表示作为训练SVM的特征。我意识到我可以很容易地计算余弦距离(例如)并使用这一个值作为特征。但是我想使用矢量表示本身。

SVM的功能输入是一个嵌套列表,如下所示:

Featureset

最内部列表(黑色)是每个单词的向量表示。在文本序列中(绿色列表)。然后,每个蓝色列表是2个文本序列的矢量表示,使每个蓝色列表成为我想用来训练SVM的特征。由于尺寸不相等,当我想要适合SVM时,我得到一个错误:“ValueError:设置一个带有序列的数组元素”。 有没有办法可以使用这些功能来训练SVM,还是scikit学习不允许这种格式作为输入?

0 个答案:

没有答案