多义词的列表

时间:2014-02-25 13:55:10

标签: dataset nlp wordnet

我正在尝试找到多义词的列表但在互联网上没有得到任何东西。有人可以建议我从哪里得到它的来源?我想在我的词义消歧项目的后端使用它来进行多义检测机制。

2 个答案:

答案 0 :(得分:4)

来自http://ixa2.si.ehu.es/signatureak/SENSECORPUS.README.TXT

  

我们说如果一个词具有独特的意义,那就是单词,即if   一个词有一个独特的同义词,考虑到它的所有部分。

因此,多义词是具有多于一种意义的词。您可以从wordnet本身获取此信息。

查看this

以下内容可行:

from nltk.corpus import wordnet as wn

def is_polysemous(word): 
    if(len(wn.synsets(word)) > 1): #more than 1 sense
        return True
    else:
        return False

您可以通过添加POS进一步限定代码。例如:

from nltk.corpus import wordnet as wn

def is_polysemous(word): 
    if(len(wn.synsets(word, pos=wn.NOUN)) > 1): #more than 1 sense
        return True
    else:
        return False

答案 1 :(得分:1)

每个版本的WordNet都变得越来越精细。以名词'line'为例。在WordNet1.5中,它有6种感官,而WordNet3.0则为同一名词列出了30种感官。

@axiom给了你正确的答案,但是如果你不希望你的应用程序如此具体,你可以改变你正在使用的WordNet版本,或者你可以使用所谓的'sense mapping',这些组更相关感知从更大的版本(例如3.0)到1.5的相同意义。 你可以在http://www.cse.unt.edu/~rada/downloads.html#wordnet找到一些感知映射,或者,如果你想要不同的版本,你可以自己制作映射。