应用GloVe嵌入后,如何创建单词袋特征向量?

时间:2019-04-27 16:08:04

标签: machine-learning nlp sentiment-analysis libsvm glove

如果我有两个电影评论:

"this was a really good movie" and "i did not like this movie at all"

然后将GloVe嵌入到它们中,我将得到两个向量,其中有多个单词向量,如下所示:

1st Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]] 
2nd Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]

基本上,评论中的每个单词都会转换为300个元素的浮点数数组。由于数组的长度是可变的,所以我不能只将它们插入分类器中。

我曾考虑过要进行“词袋”表示,但是由于这些单词已变成数字,因此我不确定如何实现。

1 个答案:

答案 0 :(得分:0)

仅当您将单词作为离散单位使用时,词袋表示才有意义。如果要使用SVM而不使用神经网络,则可以使用均值池或最大池(即只对句子长度的平均值或最大值)进行嵌入。

在神经网络中,嵌入是使用CNN或RNN处理的,它们基本上保留了重要信息,而丢弃了其余信息。由于在SVM模型中没有喜欢的东西,因此合理的做法是删除停用词。