如果我有两个电影评论:
"this was a really good movie" and "i did not like this movie at all"
然后将GloVe嵌入到它们中,我将得到两个向量,其中有多个单词向量,如下所示:
1st Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]
2nd Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]
基本上,评论中的每个单词都会转换为300个元素的浮点数数组。由于数组的长度是可变的,所以我不能只将它们插入分类器中。
我曾考虑过要进行“词袋”表示,但是由于这些单词已变成数字,因此我不确定如何实现。
答案 0 :(得分:0)
仅当您将单词作为离散单位使用时,词袋表示才有意义。如果要使用SVM而不使用神经网络,则可以使用均值池或最大池(即只对句子长度的平均值或最大值)进行嵌入。
在神经网络中,嵌入是使用CNN或RNN处理的,它们基本上保留了重要信息,而丢弃了其余信息。由于在SVM模型中没有喜欢的东西,因此合理的做法是删除停用词。