我正在尝试使用包word2vec(https://pypi.org/project/word2vec/)进行单词嵌入。 但是,我找不到函数“ word2vec”的输入文件的文件格式。
我尝试使用.txt格式和pickle文件,但均无效。
例如,使用Windows记事本制作的corpus.txt包含“我是foo bar语料库测试”
import word2vec
word2vec.word2vec("corpus.txt", "corpus.bin", size=100, verbose=True)
我原本期望:
Vocab size: 7
Words in train file: 7
如此处的示例:https://nbviewer.jupyter.org/github/danielfrg/word2vec/blob/master/examples/word2vec.ipynb
但只有
Vocab size: 1
Words in train file: 0
有人知道此功能接受哪种文件类型/格式?
提前谢谢!
答案 0 :(得分:0)
您的特定结果很有可能是因为大多数word2vec实现都会丢弃出现少于某些 minimum-count 值(通常为5)的所有单词。(Word2Vec不会为此类稀有单词创建良好的向量,并且它们的存在通常会干扰其他更常见单词的更好的向量,因此对于实际大小的语料库,丢弃它们通常是个好主意。)
因此,一个玩具大小的输入文件(每个单词只有7个单词出现一次)只留下了(也许)一个合成单词。
由于PyPI软件包似乎是Google最初发布的word2vec.c
代码的一个薄包装,您可能可以参考that code来了解有关格式/用法的更多详细信息。
但是,您也可以使用Word2Vec
implementation in the Gensim library-使用Python时更常见的选择,它具有更多的文档和灵活性。