如何使用word2vec返回的单词vector作为功能?

时间:2017-06-14 19:34:58

标签: python scikit-learn neural-network gensim word2vec

我打算为此目的使用Scikit Learn的多层感知器分类器 输出是该单词的性别,它应以单热编码表示,如男性为[1,0,0],女性为[0,1,0],女性为[0,0,1]。 现在其中一个输入是单词的单词vector。这些向量中的每一个都有20个维度。 其他功能是它的词性标签和奇点(0)/多元(1)状态。 我的问题是如何使用单词vector作为MLPClassifier中的一个特征?

1 个答案:

答案 0 :(得分:1)

你的w2v矢量捕获了与单词相关的一些语义相似性。这个向量必须被认为是一个整体 - 它本身就是一个特征。

神经网络的一个很好的属性是它们自己提取和学习模式的能力。作为输入,您可以考虑将单词vector与POS标记的矢量化/数值等价物连接起来,最后将奇点状态连接起来:

------------------- ----  -   
\_________________/ \__/  |     } ------ 25d vector input to the MLP (assuming your POS takes 4 spaces)
     w2v vector      POS state

只要您遵循训练,测试和看不见的数据的一致方案,您的MLP将使用整个输入在学习时自动从输入中提取特征。