word2vec对监督学习有意义吗?

时间:2016-06-27 08:52:25

标签: machine-learning nlp word2vec supervised-learning unsupervised-learning

我有一个用于训练模型的句子/标签对列表,如何将句子编码为SVM的输入?

1 个答案:

答案 0 :(得分:2)

句子是否用同一种语言?你可以从训练有素的word2vec文件开始,如果它是英文版,你可以从谷歌下载。注意如何创建列车文件,是否应用词干等。从哪个语料库生成它也有点重要;如果这是来自新闻组,或者是从网络或更正式的文本中提取的,那么您会得到不同的结果。

Word2Vec基本上将每个单词编码为更高维度的向量空间。这通常是200,300或500尺寸。经过培训,然后进行测试"句子基本上都是单词,不需要任何顺序。

然后,对于单词包中的每个单词,找出相应的word2vec向量。然后,您可以通过平均向量来创建要素,采用最小值'最大值'如果您要比较文本,请查看计算向量之间的余弦相似度。然后在SVM中使用这些功能。