具有大量参数的ML模型将倾向于过度拟合(因为它们具有较大的变化)。在我看来,word2vec
就是这样一个模型。减少模型方差的方法之一是应用正则化技术,这对于其他嵌入模型是非常常见的,例如矩阵分解。但是,word2vec
的基本版本没有任何正则化部分。有这个原因吗?
答案 0 :(得分:5)
这是一个有趣的问题。
我说Word2Vec 中的过度拟合并没有多大意义,因为单词嵌入的目标是尽可能准确地匹配单词出现分布。 Word2Vec不是为了学习训练词汇之外的任何东西而设计的,即 generalize ,而是为了近似文本语料库定义的一个分布。从这个意义上说,Word2Vec实际上是试图完全适应,所以它不能 over -fit。
如果您的词汇量很小,则可以计算共生矩阵并找到嵌入(给定大小)的确切全局最小值,即得到完美拟合并且定义此修复语言的最佳上下文单词模型。