我正在使用"距离"脚本在我建立的word2vec上找到类似的单词。它包含大约160万字,并由此命令训练:
./word2vec -train processed-text-2016.txt -output vec-cbow-neg.txt -debug 2 -threads 5 -size 300 -window 10 -sample 1e-3 -negative 10 -hs 0 -binary 0 -cbow 1 > w2v-neg.log &
我的问题是当我输入任何单词时,我会得到以下结果: 输入单词或句子(EXIT to break):rt
单词:rt在词汇中的位置:658253
-0.000451 0.494857
356414 0.477918
9 0.441466
83 0.432876
63 0.431347
-0.020525 0.429472
.047345 0.425791
36 0.423420
242 0.418320
... ...
输入单词或句子(EXIT to break):nd
单词:nd词汇位置:336527
3 0.494377
489 0.492153
632 0.483827
0.002335 0.462591
0693 0.458801
036869 0.452456
036819 0.447690
31 0.443887
... ...
输入单词或句子(EXIT to break):和
单词:和词汇中的位置:1600843
080852 0.451752
57 0.438413
16577 0.437900
4 0.433538
.005464 0.429279
003131 0.422587
17380 0.420614
9 0.419624
5082 0.419569
0.019322 0.417945
.000435 0.417265
115991 0.414139
... ...
输入单词或句子(EXIT to break):happy
单词:词汇中的快乐位置:-1 字典词! 输入单词或句子(EXIT to break):man
单词:man in rsocabulary:470143
0.055039 0.488181
4793 0.455608
90743 0.454786
060493 0.453180
36 0.451387
6 0.450261
4 0.445118
830 0.442580
490 0.439919
0.025327 0.437766
0.005571 0.436606
0.001964 0.436544
-0.012627 0.434358
... ...
输入单词或句子(EXIT to break):女性
单词:女性词汇量:-1 字典词! 输入单词或句子(EXIT to break):queen
单词:女王在词汇中的位置:-1
如果我从模型文件(文本文件)中搜索这些单词,我会发现它们,所以我不确定为什么会发生这种情况或者如何解决这个问题?是因为数据中的噪音(我对此感到沮丧)还是我使用过的参数?
答案 0 :(得分:0)
答案就是我使用模型的文本格式而不是二进制格式...