应用错误收集

培训Word2Vec所需的最佳或最小数据大小是多少？

时间：2016-08-12 09:23:56

标签： dataset word2vec sentence-similarity

我有一个40 MB大小的文本数据集，我想培训Word2Vec来构建一个模型，可以用来查找特定域文档中句子或段落之间的相似性。 Word2Vec需要什么样的数据集的最小大小才能获得良好的结果？

1 个答案:

答案 0 :(得分：0)

对于简单的CBOW模型，该算法将观察所有的词对，我们将其称为（上下文，目标），其中target是上下文中+/- X个词（窗口大小= X）中可能出现的词。然后训练神经网络以“给出上下文词来预测接近它的词”。因此，您应该查看文件中有多少个独特的单词和成对的单词。从文件大小来看，例如，英语的Wikipedia转储为15 GB。

也请检查一些不错的博客以更好地了解算法，其中一个不错的是： http://blog.aylien.com/overview-word-embeddings-history-word2vec-cbow-glove/

祝你好运！