我使用的是中国学术界的中文Wordnet。它是Wordnet 1.6的翻译。不幸的是,它不是免费提供的,必须购买,手册基本上说是参考Wordnet的手册。我想弄清楚的是如何比较两个单词之间的相似性。我想这是用WordNetSynsetOffset完成的,但是我在Wordnet网站上找不到任何内容或者有关如何使用它来比较两个单词的文档。至于实际算法,我认为这是一个好的开始http://marimba.d.umn.edu/similarity/measures.html
<Record Conut="65">
<EnglishLemma>exercise</EnglishLemma>
<POS>Noun</POS>
<WordNetSynsetOffset Version="1.6">00469856</WordNetSynsetOffset>
<EnglishFrequancyRank>通用詞彙</EnglishFrequancyRank>
<ChineseTransList>
<ChineseTrans>
<ChineseLemma>例題</ChineseLemma>
<ChineseFrequancyRank>通用詞彙</ChineseFrequancyRank>
</ChineseTrans>
</ChineseTransList>
</Record>
答案 0 :(得分:4)
所以我认为你正在寻找的(基于评论)是WordNet API。
如果中文格式相同,您可以使用随安装一起提供的WordNet API。这是一个C库,你可以在这里找到文档:
http://wordnet.princeton.edu/wordnet/documentation/
基本上 - 这是它的工作原理。 Synset是标识的synset的一组同义词,由Synset Id(00469856)唯一标识。同步通过各种形式的语义关系连接到其他同义词。大多数相似性指标通过搜索一个Synset(通过下面引用的数字,API应该支持这个)来工作,然后通过使用各种指标来查看另一个Synset的距离。
synset还包含synset的语义含义的文本描述 - 我们习惯的标准字典定义。在某些情况下,一些相似性度量(例如Lesk算法)使用文本描述来比较“相似”两个同义词彼此之间的关系。
还有其他API可供您通过各种语言的API搜索和访问WordNet。
http://wordnet.princeton.edu/wordnet/related-projects/
例如,以下是WordNet 3.0词典文件中的Synset定义示例:
00020671 29 v 04催眠0催眠0催眠0催眠0(...更多遗漏)......
唯一标识符00020671标识此同义词集。这里有四个同义词用于催眠。
答案 1 :(得分:0)
一个单词可能有很多可能的感官(synsets)。如果你想比较两种感官之间的相似性,你首先必须消除每个单词的歧义。一旦你知道你正在比较哪两种感官,你可以使用@bwalenz所建议的。