应用错误收集

说我用min_count = 5训练（Gensim）Word2Vec模型。文档告诉我们min_count的作用：

忽略总频率低于此值的所有字词。

min_count对上下文有什么影响？假设我有一个频繁的单词（min_count> 5）和不常用的单词（min_count＆lt; 5）的句子，用f和i注释：

这（f）是（f）a（f）测试（i）句子（i）其中（f）是（f）所示（i）这里（i）

我刚刚编写了经常使用的单词以及哪个单词不用于演示目的。

如果我删除所有不常见的单词，我们会得到一个完全不同的上下文，从而训练word2vec。在这个例子中，你的句子将是＆＃34;这是＆＃34;，然后它将成为Word2Vec的训练句子。此外，如果你有很多不常见的单词，那么原本相距很远的单词现在放在同一个上下文中。

这是Word2Vec的正确解释吗？我们是假设您不应该在数据集中包含太多不常用的单词（或设置较低的min_count阈值）？

min_count频率以下的字词会在训练发生之前被删除。因此，相关上下文window是幸存词之间的单词距离。

这种事实上的上下文缩小通常是一件好事：不经常的词语没有足够多的例子来为自己获得好的载体。此外，虽然每个罕见的单词都是罕见的，但总共存在很多单词，所以这些注定要差的矢量稀有单词会侵入大多数其他单词的训练，作为一种使这些单词向量的噪声更糟糕的是。

（类似地，当使用sample参数对频繁单词进行下采样时，频繁的单词被随机删除 - 这也基本上“缩小”幸存单词之间的距离，并且通常提高整体矢量质量。）