我正在尝试使用Wordnet和同义词集映射相似的ngram。例如:elder brother
和older sibling
应该映射到同一实体。
实现此目标的最佳方法是什么?我一直在思考,到目前为止,我只想出一种蛮力方法来检查每个单词的每个同义词集,并试图找到一个相似的单词,或者将它们添加为新实体。
我想知道是否有更好的方法来实现这一目标?
为1克:
from nltk.corpus import wordnet as wn
from nltk.stem import WordNetLemmatizer
l = WordNetLemmatizer()
older = 'older'
elder = 'elder'
older_lemma = l.lemmatize(older, pos=wn.ADJ)
elder_lemma = l.lemmatize(elder, pos=wn.ADJ)
for syn in wn.synsets(older_lemma):
if elder_lemma in syn.lemma_names():
print(syn)
理想情况下,我想将其扩展为n-gram,我正在寻找一种更好的方法来实现此目的。