俄语的现代依赖解析器

时间:2017-02-16 10:33:43

标签: parsing syntax nlp pos-tagger dependency-parsing

俄语有没有现代的词性标记+依赖解析器? 我需要一个能够处理纯文本和输出的工具或服务:

  • 分成句子
  • 分为代币
  • 词性标签(欢迎使用细粒度MSD标签)
  • lemmas(基本形式)
  • 依赖项角色标签

我需要这个工具用于商业目的。 它可以是具有经过训练的统计模型的开源项目,可用于商业目的(如果需要,可以购买)或Web API。 最终它可能是一个拥有专有模型的专有闭源二进制文件。 我在网上发现的俄语解析模型都需要使用TreeTagger,其中1)拥有非常不友好的许可证,2)已超过20年。

1 个答案:

答案 0 :(得分:0)

为了构建(良好的)依赖解析器,您需要依赖树库。构建其依赖解析器的所有团队都可以访问这些树库,但不允许他们传递数据。因此,您可以获得解析器,但通常不是预训练模型。

这就是你必须自己训练模特的原因。对于俄语,存在依赖树库(SynTagRus)。我不知道你是否能够将它用于商业用途。也许这些网站会帮助你:

https://github.com/UniversalDependencies/UD_Russian-SynTagRus
https://habrahabr.ru/post/148124/
http://www.ruscorpora.ru/index.html

如果您设法获取数据,那么培训您自己的模型是一项非常容易的任务。要么再次问这里,要么你肯定会在互联网上找到足够的指南(无论是俄语还是其他任何语言,训练解析器都是一样的)