我正在尝试找到多义词的列表但在互联网上没有得到任何东西。有人可以建议我从哪里得到它的来源?我想在我的词义消歧项目的后端使用它来进行多义检测机制。
答案 0 :(得分:4)
来自http://ixa2.si.ehu.es/signatureak/SENSECORPUS.README.TXT
因此,多义词是具有多于一种意义的词。您可以从wordnet本身获取此信息。我们说如果一个词具有独特的意义,那就是单词,即if 一个词有一个独特的同义词,考虑到它的所有部分。
查看this。
以下内容可行:
from nltk.corpus import wordnet as wn
def is_polysemous(word):
if(len(wn.synsets(word)) > 1): #more than 1 sense
return True
else:
return False
您可以通过添加POS进一步限定代码。例如:
from nltk.corpus import wordnet as wn
def is_polysemous(word):
if(len(wn.synsets(word, pos=wn.NOUN)) > 1): #more than 1 sense
return True
else:
return False
答案 1 :(得分:1)
每个版本的WordNet都变得越来越精细。以名词'line'为例。在WordNet1.5中,它有6种感官,而WordNet3.0则为同一名词列出了30种感官。
@axiom给了你正确的答案,但是如果你不希望你的应用程序如此具体,你可以改变你正在使用的WordNet版本,或者你可以使用所谓的'sense mapping',这些组更相关感知从更大的版本(例如3.0)到1.5的相同意义。 你可以在http://www.cse.unt.edu/~rada/downloads.html#wordnet找到一些感知映射,或者,如果你想要不同的版本,你可以自己制作映射。