Question

我正在尝试使用包word2vec（https://pypi.org/project/word2vec/）进行单词嵌入。但是，我找不到函数“ word2vec”的输入文件的文件格式。

我尝试使用.txt格式和pickle文件，但均无效。

例如，使用Windows记事本制作的corpus.txt包含“我是foo bar语料库测试”

import word2vec
word2vec.word2vec("corpus.txt", "corpus.bin", size=100, verbose=True)

我原本期望：

Vocab size: 7
Words in train file: 7

但只有

Vocab size: 1
Words in train file: 0

有人知道此功能接受哪种文件类型/格式？

提前谢谢！

Answer 1

您的特定结果很有可能是因为大多数word2vec实现都会丢弃出现少于某些 minimum-count 值（通常为5）的所有单词。（Word2Vec不会为此类稀有单词创建良好的向量，并且它们的存在通常会干扰其他更常见单词的更好的向量，因此对于实际大小的语料库，丢弃它们通常是个好主意。）

因此，一个玩具大小的输入文件（每个单词只有7个单词出现一次）只留下了（也许）一个合成单词。

由于PyPI软件包似乎是Google最初发布的word2vec.c代码的一个薄包装，您可能可以参考that code来了解有关格式/用法的更多详细信息。

但是，您也可以使用Word2Vec implementation in the Gensim library-使用Python时更常见的选择，它具有更多的文档和灵活性。