在斯坦福解析器中添加语言

时间:2011-09-29 12:05:52

标签: parsing nlp stanford-nlp

我想用另一种尚未实现的语言使用Stanford解析器。

我在网站上看了一眼,但发现没有什么可以帮助我。

我想我要做的就是“只是”创建一个新的languagePCFG.ser,但这样做呢?

另外,如果有人知道法语和西班牙语是否应该被释放?

1 个答案:

答案 0 :(得分:5)

需要做几件事:

  • 您需要一个树库(一组手工解析树),从中计算出解析器中使用的概率
  • 您需要特定于语言的文件(例如xLanguagePack,xTreebankParserParams,它们指定有关语言,树库编码和解析选项的内容
  • 然后,您在树库上训练解析器以生成语法文件(请参阅分发中的makeSerialized.csh)
  • 您可能需要使用特定语言的标记生成器将文本划分为标记
  • 如果您想要Stanford Dependencies输出,那么还有一个基于规则的图层来定义依赖关系

从2011年开始,我们开始与Stanford Parser分发法国模型。从2015年开始,我们开始分发西班牙模式。