使用doc2vec获得良好性能所需的最小数据集大小是多少?

时间:2017-08-30 11:48:24

标签: nlp doc2vec

doc2vec在不同大小的数据集上训练后如何表现?在原始语料库中没有提到数据集大小,所以我想知道从doc2vec获得良好性能所需的最小大小是多少。

1 个答案:

答案 0 :(得分:8)

有很多东西被称为“doc2vec”,但它似乎最常被称为“段落向量”' Le和Mikolov的技术。

原始'Paragraph Vector' paper描述了对三个数据集进行评估:

  • ' Stanford Sentiment Treebank&#39 ;:11,825个电影评论的句子(进一步分为239,232个片段短语,每个都有几个单词)
  • ' IMDB数据集':100,000个电影评论(通常每个几百字)
  • 搜索结果'代码段'段落:10,000,000个段落,从前100,000个最常见查询中的每一个的前10个Google搜索结果中收集

前两个是公开的,因此您还可以通过单词,典型文档大小和词汇表查看其总大小。 (请注意,没有人能够在前两个数据集中的任何一个上完全复制该论文的情绪分类结果,这意味着他们的报告中存在一些缺失的信息或错误。它可以接近IMDB数据集。)

A followup paper应用该算法来发现数据集中的主题关系:

  • 维基百科:4,490,000篇正文
  • Arxiv:从PDF中提取的886,000份学术论文文本

因此,这两篇早期论文中使用的语料库从数万到数百万的文档,以及从几个单词短语到成千上万篇文章的文档大小。 (但这些作品并不一定会混合大小不同的文件。)

通常,word2vec / paragraph-vector技术受益于大量数据和各种单词上下文。如果没有至少数万份文件,我不会期望取得好成绩。超过几个字的文档每个工作都要好得多。如果在相同的培训中混合使用大小不同的文档或者混合推文,那么结果可能更难解释 - 例如混合推文和书籍。

但是你真的必须用你的语料库和目标来评估它,因为出于某些目的,某些数据的工作原理可能无法推广到非常不同的项目。