令牌列表中的每个单词仅获得一个引理。

时间:2018-12-06 00:37:52

标签: python python-3.x wordnet

对于令牌列表中的每个单词,我仅需要单词网同义词集中的一个单词,而不是全部。如何为每个令牌传递第一个引理的索引。这是我的代码:

from nltk.corpus import wordnet as wn

lemmas = []
text = ['one', 'oasis', 'halliday', 'avatar', 'time', 'school', 'year', 'thing', 'old', 'stack', 'every', 'world',
        'egg', 'game', 'around', 'real', 'name', 'room', 'still', 'even', 'began', 'trailer', 'much',
         'anorak', 'player']
for token in text:
    lemmas += [synset.lemmas()[0].name() for synset in wn.synsets(token)]
print(list(set(lemmas)))

print(len(lemmas))
print(len(text))

文本长度为25,但引理长度为203。

1 个答案:

答案 0 :(得分:0)

您可以执行以下操作:

from nltk.corpus import wordnet as wn

lemmas = []
text = ['one', 'oasis', 'halliday', 'avatar', 'time', 'school', 'year', 'thing', 'old', 'stack', 'every', 'world',
        'egg', 'game', 'around', 'real', 'name', 'room', 'still', 'even', 'began', 'trailer', 'much',
         'anorak', 'player']
for token in text:
    synsets = wn.synsets(token)
    if synsets:
        lemmas.append(synsets[0].lemmas()[0].name())

print(list(set(lemmas)))
print(len(lemmas))
print(len(text))

输出

['old', 'stack', 'about', 'school', 'universe', 'evening', 'room', 'egg', 'game', 'one', 'player', 'thing', 'name', 'every', 'get_down', 'much', 'year', 'still', 'time', 'real_number', 'oasis', 'dawdler', 'embodiment', 'parka']
24
25

引理的长度为24,因为看起来单词halliday没有同义词。确认如下:

from nltk.corpus import wordnet as wn

synsets = wn.synsets('halliday')
print(synsets)

输出

[]