从Wordnet命令行工具获取POS概率

时间:2011-06-17 15:50:02

标签: nlp wordnet

我正在写一些ruby通过wn命令行工具访问wordnet的实验,因为我放弃了让wordnet gem工作。

我希望能够查找感官的频率,最终能够计算给定单词是名词/形容词/动词/副词的概率。

我已经尝试了文档,但并不总是那么明确。

这可能不使用wn工具吗?我写的是在思考wordnet包含这个信息吗?

1 个答案:

答案 0 :(得分:4)

据我所知,它不包括频率本身,尽管在返回结果中从最常见到最不频繁地排序。

您可以通过多种方式获得实际频率。也许最可靠的是使用像Penn TreeBank这样的POS标记语料库,然后自己计算这些值。不幸的是,如果你不在大学里,那么获得免费的副本很困难。另一种选择是建立自己的语料库(可能来自博客,Project Gutenberg书籍,维基百科等等),在其上运行POS标记,然后从中计算频率。显然,这种方法会有所偏差,但它比手动标记语料库要容易得多。