说我用min_count = 5训练(Gensim)Word2Vec模型。文档告诉我们min_count的作用:
忽略总频率低于此值的所有字词。
min_count对上下文有什么影响?假设我有一个频繁的单词(min_count> 5)和不常用的单词(min_count< 5)的句子,用f和i注释:
这(f)是(f)a(f)测试(i)句子(i)其中(f)是(f)所示(i)这里(i)
我刚刚编写了经常使用的单词以及哪个单词不用于演示目的。
如果我删除所有不常见的单词,我们会得到一个完全不同的上下文,从而训练word2vec。在这个例子中,你的句子将是"这是",然后它将成为Word2Vec的训练句子。此外,如果你有很多不常见的单词,那么原本相距很远的单词现在放在同一个上下文中。
这是Word2Vec的正确解释吗?我们是假设您不应该在数据集中包含太多不常用的单词(或设置较低的min_count阈值)?
答案 0 :(得分:2)
min_count
频率以下的字词会在训练发生之前被删除。因此,相关上下文window
是幸存词之间的单词距离。
这种事实上的上下文缩小通常是一件好事:不经常的词语没有足够多的例子来为自己获得好的载体。此外,虽然每个罕见的单词都是罕见的,但总共存在很多单词,所以这些注定要差的矢量稀有单词会侵入大多数其他单词的训练,作为一种使这些单词向量的噪声更糟糕的是。
(类似地,当使用sample
参数对频繁单词进行下采样时,频繁的单词被随机删除 - 这也基本上“缩小”幸存单词之间的距离,并且通常提高整体矢量质量。 )