Question

PlWordNet 3.0版带有两个.xml文件。第一个文件是plwordnet-3.0.xml（位于Princeton WordNet format中），第二个文件是plwordnet-3.0-visdisc.xml（位于VizDic format中）。这个项目的自述文件文件似乎有些模糊，因为建议的将数据加载到NLTK的方法不起作用。 PlWordNet可从官方project site下载。

我正在尝试将此wordnet加载到NLTK中，因此我可以迭代同义词。我已经尝试了两种方法，但它们都不起作用。

a）将xml文件复制到(...)\nltk_data\corpora\omw\pol和(...)\nltk_data\corpora\wordnet。测试结果的代码：

from nltk.corpus import wordnet as wn
wn.synsets('Politechnika')

遗憾地返回空列表

b）使用nltk包中的XMLCorpusReader （如How to use the Spanish Wordnet in NLTK?中所述）加载xml文件。要测试的代码：

from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader(dir, 'plwordnet-3.0.xml')

但是当我运行reader.words()时，它只返回一个id列表（unicode对象，仅代表数字）。此外，我没有看到获取同义词集之间关系的方法。

之前有人使用普林斯顿Wordnet 3.1或PlWordNet（Słowosieć）3.0吗？

我设法使用python的xml.etree手动获取同义词列表及其描述，但我不明白如何在它们之间获得关系。

谢谢！

Answer 1

NLTK不再支持PlWordNet 3.0。

我会写自己的解析器。

如何将plwordnet（Słowosieć）3.0加载到NLTK中

1 个答案: