要有效地使用词嵌入功能,我的语料库应该是多大,每个特征向量的大小应该是多少?
我一直在尝试单词嵌入(la word2vec)。我的语料库包含大约23亿个单词,可以从逻辑上轻松地细分为较小的语料库。即使考虑我可以使用的高性能计算资源,创建word2vec二进制文件也不是一件容易的事。该过程需要大量RAM,磁盘空间和CPU周期。一旦创建了word2vec二进制文件,我就可以通过使用word2vec工具或使用诸如Gensim支持的库之类的工具轻松地查询它。我得到有趣的结果。
我想在较小的语料库上使用单词嵌入,但是不知道有多少太小。我也不知道每个功能矢量必须多大才能有用。词嵌入将在多大程度上对小说大小之类的东西起作用,并且如果它们可以在如此小的文档上有效,那么在创建模型时,向量大小的推荐值是多少?同样,如果我的语料库的大小为十亿个单词,那么每个向量的大小应为多少个维度?