Question

我已经安装了nlpnet（http://nilc.icmc.usp.br/nlpnet/），但我无法找到运行词性标注器所需的metadata_pos.pickle文件。这个文件似乎不在我的机器上，并且不包含在当前的github存储库中有什么建议吗？

Answer 1

您需要下载nlpnet-data（PoS，SRL和依赖关系的模型）。它可以在http://nilc.icmc.usp.br/nlpnet/models.html上找到。 PoS标记模型文件Metadata_pos.pickle在http://nilc.icmc.usp.br/nlpnet/data/pos-pt.tgz

中可用

Answer 2

您需要从此页面http://nilc.icmc.usp.br/nlpnet/models.html（POS或SRL）下载模型

解压缩某个文件夹中的文件，比如说“ / Users / Downloads”，然后像这样导入您的代码：

import nlpnet
nlpnet.set_data_dir('/Users/Downloads/pos-pt')

# Now you can start using it
tagger = nlpnet.POSTagger()
op = tagger.tag('texto em portugues')

Answer 3

要训练模型，你需要每行一个句子的示例，其中包含由下划线字符连接的标记和标记：

This_DT is_VBZ an_DT example_NN

将此命令与您的语料库一起使用，您将生成使用POS标记器所需的数据（包括metadata_pos.pickle）：

nlpnet-train.py pos --gold /path/to/training-data.txt

如果您想使用已经训练过的模型，他们会有一个here。它是用巴西葡萄牙语新闻语料库Mac-Morpho Corpus进行训练/评估的，所以它可能不适用于其他语言。

nlpnet从哪里获取它的元数据pickle文件？

3 个答案: