为了有效地使用词嵌入,我的语料库应该有多大,每个特征向量的大小应该是多少?

时间:2018-06-25 13:24:26

标签: word2vec

要有效地使用词嵌入功能,我的语料库应该是多大,每个特征向量的大小应该是多少?

我一直在尝试单词嵌入(la word2vec)。我的语料库包含大约23亿个单词,可以从逻辑上轻松地细分为较小的语料库。即使考虑我可以使用的高性能计算资源,创建word2vec二进制文件也不是一件容易的事。该过程需要大量RAM,磁盘空间和CPU周期。一旦创建了word2vec二进制文件,我就可以通过使用word2vec工具或使用诸如Gensim支持的库之类的工具轻松地查询它。我得到有趣的结果。

我想在较小的语料库上使用单词嵌入,但是不知道有多少太小。我也不知道每个功能矢量必须多大才能有用。词嵌入将在多大程度上对小说大小之类的东西起作用,并且如果它们可以在如此小的文档上有效,那么在创建模型时,向量大小的推荐值是多少?同样,如果我的语料库的大小为十亿个单词,那么每个向量的大小应为多少个维度?

0 个答案:

没有答案