如何为语料库中的文章分配权重以生成单词嵌入(例如word2vec)?

时间:2018-08-15 14:08:40

标签: word2vec corpus word-embedding

我发现语料库中的某些文章比其他文章更重要(例如,我更喜欢它们的措辞)。结果,我想在生成词向量的过程中增加它们在整个语料库中的“权重”。有办法实现吗?我能想到的当前解决方案是多次复制较重要的文章,然后将其添加到语料库中。但是,这是否适用于单词嵌入过程?有没有更好的方法来实现这一目标?非常感谢!

1 个答案:

答案 0 :(得分:1)

在gensim for Python中,我最熟悉的word2vec库没有增加某些文本的功能。但是,您的想法只是重复一些更重要的文本即可。

不过请注意:

  • 如果文本在您的语料库中不连续重复,则可能会更好地工作-分散重复的上下文,以便与其他各种用法示例以交错的方式遇到它们

  • 该算法确实得益于各种用法示例–重复执行相同的稀有示例10次远不及10种自然微妙的用法,从而引发人们想要的各种连续的含义层次来自word2vec

  • 您应该确保使用与最终目的相关的定量质量得分来测试您的超重策略,以确保它能如您所愿。这可能是额外的代码/培训工作,以至于收益微不足道,甚至损害了某些单词向量的质量。