应用错误收集

要有效地使用词嵌入功能，我的语料库应该是多大，每个特征向量的大小应该是多少？

我一直在尝试单词嵌入（la word2vec）。我的语料库包含大约23亿个单词，可以从逻辑上轻松地细分为较小的语料库。即使考虑我可以使用的高性能计算资源，创建word2vec二进制文件也不是一件容易的事。该过程需要大量RAM，磁盘空间和CPU周期。一旦创建了word2vec二进制文件，我就可以通过使用word2vec工具或使用诸如Gensim支持的库之类的工具轻松地查询它。我得到有趣的结果。

我想在较小的语料库上使用单词嵌入，但是不知道有多少太小。我也不知道每个功能矢量必须多大才能有用。词嵌入将在多大程度上对小说大小之类的东西起作用，并且如果它们可以在如此小的文档上有效，那么在创建模型时，向量大小的推荐值是多少？同样，如果我的语料库的大小为十亿个单词，那么每个向量的大小应为多少个维度？

为了有效地使用词嵌入，我的语料库应该有多大，每个特征向量的大小应该是多少？

0 个答案: