我试图从Word2Vec词汇表中获取特定单词的关键字

时间:2018-05-06 03:17:07

标签: python dictionary nlp word2vec gensim

Word2Vec

目前我正在尝试对文本语料库进行文本分类。为此,我决定在word2vec的帮助下执行gensim。为此,我有以下代码:

sentences = MySentences("./corpus_samples") # a memory-friendly iterator
model = gensim.models.Word2Vec(sentences, size=100, window=5, min_count=5, workers=4)

我的句子基本上是一个处理文件 I / O

的类
class MySentences(object):
    def __init__(self, dirname):
        self.dirname = dirname

    def __iter__(self):
        for fname in os.listdir(self.dirname):
            for line in open(os.path.join(self.dirname, fname)):
                yield line.split()

现在我们可以获得通过以下行创建的模型的词汇表:

print(model.wv.vocab)

其输出低于(样本):

t at 0x106f19438>, 'raining.': <gensim.models.keyedvectors.Vocab object at 0x106f19470>, 'fly': <gensim.models.keyedvectors.Vocab object at 0x106f194a8>, 'rain.': <gensim.models.keyedvectors.Vocab object at 0x106f194e0>, 'So…': <gensim.models.keyedvectors.Vocab object at 0x106f19518>, 'Ohhh,': <gensim.models.keyedvectors.Vocab object at 0x106f19550>, 'weird.': <gensim.models.keyedvectors.Vocab object at 0x106f19588>}

截至目前,作为词汇表的词典包含单词字符串和<gensim.models.keyedvectors.Vocab object at 0x106f19588>对象等。我希望能够查询特定单词的索引。为了使我的训练数据如下:

w91874 w2300 w6 w25363 w6332 w11 w767 w297441 w12480 w256 w23270 w13482 w22236 w259 w11 w26959 w25 w1613 w25363 w111 __label__4531492575592394249
w17314 w5521 w7729 w767 w10147 w111 __label__1315009618498473661
w305 w6651 w3974 w1005 w54 w109 w110 w3974 w29 w25 w1513 w3645 w6 w111 __label__-400525901828896492
w30877 w72 w11 w2828 w141417 w77033 w10147 w111 __label__4970306416006110305
w3332 w1107 w4809 w1009 w327 w84792 w6 w922 w11 w2182 w79887 w1099 w111 __label__-3645735357732416904
w471 w14752 w1637 w12348 w72 w31330 w930 w11569 w863 w25 w1439 w72 w111 __label__-5932391056759866388
w8081 w5324 w91048 w875 w13449 w1733 w111 __label__3812457715228923422

wxxxx表示词汇表中单词的索引,标签表示该类。

语料库

我一直在尝试的一些解决方案是corpora的{​​{1}}实用程序:

gensim

这给了我一个很好的单词词典,但是这个语料库词汇与上面提到的corpora = gensim.corpora.dictionary.Dictionary(sentences, prune_at=2000000) print(corpora) print(getKey(corpora,'am')) 函数创建的词汇表不同。

1 个答案:

答案 0 :(得分:1)

<强> TL; DR:

model.wv.vocab['my_word'].index

其中'my_word'是您想要其索引的字词(例如。'hello''the'等)。

长篇故事:

这是因为gensim将Vocab对象存储在model.wv.vocab字典中。

当您尝试打印字典时,这就是'raining.': <gensim.models.keyedvectors.Vocab object at 0x106f19470>获得结果的原因。

使用索引初始化Vocab对象:

wv.vocab[word] = Vocab(count=v, index=len(wv.index2word))

因此允许访问此属性。

我不明白为什么你需要代表它,但这应该可以解决问题。

可以在source

中找到更多详细信息