培训Word2Vec所需的最佳或最小数据大小是多少?

时间:2016-08-12 09:23:56

标签: dataset word2vec sentence-similarity

我有一个40 MB大小的文本数据集,我想培训Word2Vec来构建一个模型,可以用来查找特定域文档中句子或段落之间的相似性。 Word2Vec需要什么样的数据集的最小大小才能获得良好的结果?

1 个答案:

答案 0 :(得分:0)

对于简单的CBOW模型,该算法将观察所有的词对,我们将其称为(上下文,目标),其中target是上下文中+/- X个词(窗口大小= X)中可能出现的词。然后训练神经网络以“给出上下文词来预测接近它的词”。因此,您应该查看文件中有多少个独特的单词和成对的单词。从文件大小来看,例如,英语的Wikipedia转储为15 GB。

也请检查一些不错的博客以更好地了解算法,其中一个不错的是: http://blog.aylien.com/overview-word-embeddings-history-word2vec-cbow-glove/

祝你好运!