给出带有如下行的文本文件:
Phrase foo\tPhrase bla\tPhrase blabla\t...
Phrase bar\tPhrase blabla\tPhrase blablabla\t...
其中每个文本行是制表符分隔的短语序列,可以包含space
和其他特殊字符。我们感兴趣的是在短语级别嵌入,而不是单词级别。
当前word2vec.c支持" space"," tab"," new line"作为分隔符。如何禁用"空间"并且仅启用" tab"和"新线"在这种情况下,作为word2vec.c中的分隔符?
我从Tomas Mikolov获得了word2vec.c GitHub