软件包word2vec中的功能word2vec的输入文件格式是什么?

时间:2019-04-05 14:51:22

标签: python word2vec

我正在尝试使用包word2vec(https://pypi.org/project/word2vec/)进行单词嵌入。 但是,我找不到函数“ word2vec”的输入文件的文件格式。

我尝试使用.txt格式和pickle文件,但均无效。

例如,使用Windows记事本制作的corpus.txt包含“我是foo bar语料库测试”

import word2vec
word2vec.word2vec("corpus.txt", "corpus.bin", size=100, verbose=True)

我原本期望:

Vocab size: 7
Words in train file: 7

如此处的示例:https://nbviewer.jupyter.org/github/danielfrg/word2vec/blob/master/examples/word2vec.ipynb

但只有

Vocab size: 1
Words in train file: 0

有人知道此功能接受哪种文件类型/格式?

提前谢谢!

1 个答案:

答案 0 :(得分:0)

您的特定结果很有可能是因为大多数word2vec实现都会丢弃出现少于某些 minimum-count 值(通常为5)的所有单词。(Word2Vec不会为此类稀有单词创建良好的向量,并且它们的存在通常会干扰其他更常见单词的更好的向量,因此对于实际大小的语料库,丢弃它们通常是个好主意。)

因此,一个玩具大小的输入文件(每个单词只有7个单词出现一次)只留下了(也许)一个合成单词。

由于PyPI软件包似乎是Google最初发布的word2vec.c代码的一个薄包装,您可能可以参考that code来了解有关格式/用法的更多详细信息。

但是,您也可以使用Word2Vec implementation in the Gensim library-使用Python时更常见的选择,它具有更多的文档和灵活性。