训练doc2Vec模型实际需要多少数据?

时间:2018-01-02 10:19:08

标签: neural-network gensim doc2vec

我一直在使用 gensim的库来训练doc2Vec模型。在尝试使用不同的数据集进行培训之后,我对doc2Vec模型的理想训练数据大小感到相当困惑?

我将在这里分享我的理解。请随时纠正我/建议更改 -

  1. 对通用数据集进行培训 - 如果我想使用在通用数据集上训练的模型,在特定用例中,我需要训练大量数据。
  2. 关于上下文相关数据集的培训 - 如果我想对与我的用例具有相同上下文的数据进行训练,通常训练数据的大小可以更小。
  3. 但在这两种情况下,用于培训的单词数量是多少?

    总的来说,当错误图达到"肘点时,我们停止训练ML模型,其中进一步的训练不会有助于减少错误。是否有任何研究朝这个方向进行 - doc2Vec模型的训练在到达肘部后停止了?

1 个答案:

答案 0 :(得分:4)

没有绝对的指导方针 - 它在很大程度上取决于您的数据集和具体的应用目标。对已发布的Doc2Vec工作中使用的数据集大小进行了一些讨论:

what is the minimum dataset size needed for good performance with doc2vec?

如果您的通用语料库与您网域的词汇量不匹配 - 包括相同的词语,或使用相同意义的词语 - 这是一个无法解决的问题只是"很多数据"。更多数据可以“拉动”。单词上下文和表示更多地针对泛型而非特定于域的值。

您确实需要拥有自己的定量自动评估/评分方法,以便衡量具体数据和目标的结果是否充足,或者通过更多数据或其他培训调整来改进。

有时,参数调整可以帮助您充分利用瘦数据 - 特别是,更多的训练迭代或更小的模型(更少的矢量维度)可以稍微抵消一些小型语料库的问题。但是Word2Vec / Doc2Vec真正受益于许多微妙变化的,特定领域的数据 - 它是培训期间所有文本示例之间不断的,增量的拔河比赛。有助于最终的表示形成一个有用的排列星座,具有所需的相对距离/相对方向属性。