Wordnet Synset Offset?如何比较单词

时间:2011-04-15 14:02:56

标签: nlp similarity wordnet

我使用的是中国学术界的中文Wordnet。它是Wordnet 1.6的翻译。不幸的是,它不是免费提供的,必须购买,手册基本上说是参考Wordnet的手册。我想弄清楚的是如何比较两个单词之间的相似性。我想这是用WordNetSynsetOffset完成的,但是我在Wordnet网站上找不到任何内容或者有关如何使用它来比较两个单词的文档。至于实际算法,我认为这是一个好的开始http://marimba.d.umn.edu/similarity/measures.html

<Record Conut="65">  
    <EnglishLemma>exercise</EnglishLemma>  
    <POS>Noun</POS>  
    <WordNetSynsetOffset Version="1.6">00469856</WordNetSynsetOffset>  
    <EnglishFrequancyRank>通用詞彙</EnglishFrequancyRank>  
    <ChineseTransList>  
        <ChineseTrans>  
            <ChineseLemma>例題</ChineseLemma>  
            <ChineseFrequancyRank>通用詞彙</ChineseFrequancyRank>  
        </ChineseTrans>  
    </ChineseTransList>  
</Record>  

2 个答案:

答案 0 :(得分:4)

所以我认为你正在寻找的(基于评论)是WordNet API。

如果中文格式相同,您可以使用随安装一起提供的WordNet API。这是一个C库,你可以在这里找到文档:

http://wordnet.princeton.edu/wordnet/documentation/

基本上 - 这是它的工作原理。 Synset是标识的synset的一组同义词,由Synset Id(00469856)唯一标识。同步通过各种形式的语义关系连接到其他同义词。大多数相似性指标通过搜索一个Synset(通过下面引用的数字,API应该支持这个)来工作,然后通过使用各种指标来查看另一个Synset的距离。

synset还包含synset的语义含义的文本描述 - 我们习惯的标准字典定义。在某些情况下,一些相似性度量(例如Lesk算法)使用文本描述来比较“相似”两个同义词彼此之间的关系。

还有其他API可供您通过各种语言的API搜索和访问WordNet。

http://wordnet.princeton.edu/wordnet/related-projects/

例如,以下是WordNet 3.0词典文件中的Synset定义示例:

00020671 29 v 04催眠0催眠0催眠0催眠0(...更多遗漏)......

唯一标识符00020671标识此同义词集。这里有四个同义词用于催眠。

答案 1 :(得分:0)

一个单词可能有很多可能的感官(synsets)。如果你想比较两种感官之间的相似性,你首先必须消除每个单词的歧义。一旦你知道你正在比较哪两种感官,你可以使用@bwalenz所建议的。