阿拉伯语词义化和斯坦福NLP

时间:2015-03-19 17:33:54

标签: nlp stanford-nlp lexical-analysis stemming lemmatization

我尝试进行词形还原,即识别引理,可能还有动词的阿拉伯词根,例如: يتصل==>引理(动词的不定式)==> اتصل==>根(三叶根/ Jidr thoulathi) ==> وصل

你认为斯坦福NLP能做到吗?

最诚挚的问候,

2 个答案:

答案 0 :(得分:10)

斯坦福大学的阿拉伯语分词不能做真正的词形还原。但是,可以训练一个新的模型来做类似词干的事情:

  • تكتبون←ت+كتب+ون
  • يتصل←ي+تصل

如果非常重要的是输出是真正的阿拉伯语引理(“تصل”不是真正的引理),那么使用像MADAMIRA(http://nlp.ldeo.columbia.edu/madamira/)这样的工具可能会更好。

详细说明:斯坦福阿拉伯语分段器仅使用这些操作(在edu.stanford.nlp.international.arabic.process.IOBUtils中实现)逐个字符地生成输出:

  • 在两个字符之间拆分
  • 将lil-(لل)转换为li + al-(ل+ال)
  • 将ta(Ê)或ha(ه)转换为ta marbuta(É)
  • 将ya(ي)或alif(ا)变换为alif maqsura(ى)
  • 将alif maqsura(ى)转换为ya(ي)

因此,将يتصل词条化为ي+اتصل需要实现一个额外的规则,即在ya或ta之后插入alif。某些不规则形式的词形还原是完全不可能的(例如,نساء←امرأة)。

可供下载的斯坦福分段器版本也只能断言代词和粒子:

وسيكتشفونه←و+س+يكتشفون+ه

但是,如果您可以访问LDC阿拉伯语树库或具有注释形态分割的类似丰富的阿拉伯语文本来源,则可以训练您自己的模型以删除所有形态词缀,这更接近词形推理:

وسيكتشفونه←و+س+ي+كتشف+ون+ه

请注意,“كتشف”不是真正的阿拉伯语单词,但是分段符号应该至少始终为تكتشفين,أكتشف,يكتشف等生成“كتشف”。如果这是可以接受的,则需要将ATB预处理脚本更改为而是使用形态分割注释。您可以通过将名为parse_integrated的脚本替换为修改后的版本来执行此操作:https://gist.github.com/futurulus/38307d98992e7fdeec0d

然后按照自述文件中的“训练SEGMENTER”的说明进行操作。

答案 1 :(得分:2)

我不确定Stanford NLP工具包是否有一个lammetizer,但你可以试试

Farasa Lemmatizer在准确性方面优于MADAMIRA Lemmatizer。准确度约为97.23%。在词形还原任务中,它比MADAMIRA提供了+ 7%的相对增益。

您可以从以下链接了解有关Farasa Lemmatizer的更多信息: https://arxiv.org/pdf/1710.06700.pdf