我打算为此目的使用Scikit Learn的多层感知器分类器 输出是该单词的性别,它应以单热编码表示,如男性为[1,0,0],女性为[0,1,0],女性为[0,0,1]。 现在其中一个输入是单词的单词vector。这些向量中的每一个都有20个维度。 其他功能是它的词性标签和奇点(0)/多元(1)状态。 我的问题是如何使用单词vector作为MLPClassifier中的一个特征?
答案 0 :(得分:1)
你的w2v矢量捕获了与单词相关的一些语义相似性。这个向量必须被认为是一个整体 - 它本身就是一个特征。
神经网络的一个很好的属性是它们自己提取和学习模式的能力。作为输入,您可以考虑将单词vector与POS标记的矢量化/数值等价物连接起来,最后将奇点状态连接起来:
------------------- ---- -
\_________________/ \__/ | } ------ 25d vector input to the MLP (assuming your POS takes 4 spaces)
w2v vector POS state
只要您遵循训练,测试和看不见的数据的一致方案,您的MLP将使用整个输入在学习时自动从输入中提取特征。