如何将plwordnet(Słowosieć)3.0加载到NLTK中

时间:2016-07-05 12:25:20

标签: nltk wordnet

PlWordNet 3.0版带有两个.xml文件。第一个文件是plwordnet-3.0.xml(位于Princeton WordNet format中),第二个文件是plwordnet-3.0-visdisc.xml(位于VizDic format中)。这个项目的自述文件文件似乎有些模糊,因为建议的将数据加载到NLTK的方法不起作用。 PlWordNet可从官方project site下载。

我正在尝试将此wordnet加载到NLTK中,因此我可以迭代同义词。我已经尝试了两种方法,但它们都不起作用。

a)将xml文件复制到(...)\nltk_data\corpora\omw\pol(...)\nltk_data\corpora\wordnet。测试结果的代码:

from nltk.corpus import wordnet as wn
wn.synsets('Politechnika')

遗憾地返回空列表

b)使用nltk包中的XMLCorpusReader (如How to use the Spanish Wordnet in NLTK?中所述)加载xml文件。要测试的代码:

from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader(dir, 'plwordnet-3.0.xml')

但是当我运行reader.words()时,它只返回一个id列表(unicode对象,仅代表数字)。此外,我没有看到获取同义词集之间关系的方法。

之前有人使用普林斯顿Wordnet 3.1或PlWordNet(Słowosieć)3.0吗?

我设法使用python的xml.etree手动获取同义词列表及其描述,但我不明白如何在它们之间获得关系

谢谢!

1 个答案:

答案 0 :(得分:-1)

NLTK不再支持PlWordNet 3.0。

我会写自己的解析器。