PlWordNet 3.0版带有两个.xml
文件。第一个文件是plwordnet-3.0.xml
(位于Princeton WordNet format
中),第二个文件是plwordnet-3.0-visdisc.xml
(位于VizDic format
中)。这个项目的自述文件文件似乎有些模糊,因为建议的将数据加载到NLTK的方法不起作用。 PlWordNet可从官方project site下载。
我正在尝试将此wordnet加载到NLTK中,因此我可以迭代同义词。我已经尝试了两种方法,但它们都不起作用。
a)将xml文件复制到(...)\nltk_data\corpora\omw\pol
和(...)\nltk_data\corpora\wordnet
。测试结果的代码:
from nltk.corpus import wordnet as wn
wn.synsets('Politechnika')
遗憾地返回空列表
b)
from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader(dir, 'plwordnet-3.0.xml')
但是当我运行reader.words()
时,它只返回一个id列表(unicode对象,仅代表数字)。此外,我没有看到获取同义词集之间关系的方法。
之前有人使用普林斯顿Wordnet 3.1或PlWordNet(Słowosieć)3.0吗?
我设法使用python的xml.etree
手动获取同义词列表及其描述,但我不明白如何在它们之间获得关系。
谢谢!
答案 0 :(得分:-1)
NLTK不再支持PlWordNet 3.0。
我会写自己的解析器。