我需要从“ gensim.models.keyedvectors.Word2VecKeyedVectors”的词汇中删除无效的单词。
我尝试使用del model.vocab[word]
删除它,如果我打印model.vocab
,这个词就消失了,但是当我使用其他词运行model.most_similar
时,我删除的词仍然看起来像。
那么如何以一种影响model.vocab
的方式从model.most_similar
中删除一个单词呢?
答案 0 :(得分:1)
不存在支持删除单个单词的现有方法。
在删除vocab
条目的同时,注意到现有矢量(在基础大矢量数组中)的index
的同时,一种快速而又肮脏的解决方法将该索引处的kv_model.index2entity
列表中的字符串更改为某个插入值(例如'***DELETED***'
)。
然后,在执行任何most_similar()
之后,丢弃所有与'***DELETED***'
相匹配的条目。
答案 1 :(得分:0)
Refer to:
How to remove a word completely from a Word2Vec model in gensim?
work).