我尝试进行词形还原,即识别引理,可能还有动词的阿拉伯词根,例如: يتصل==>引理(动词的不定式)==> اتصل==>根(三叶根/ Jidr thoulathi) ==> وصل
你认为斯坦福NLP能做到吗?
最诚挚的问候,
答案 0 :(得分:10)
斯坦福大学的阿拉伯语分词不能做真正的词形还原。但是,可以训练一个新的模型来做类似词干的事情:
如果非常重要的是输出是真正的阿拉伯语引理(“تصل”不是真正的引理),那么使用像MADAMIRA(http://nlp.ldeo.columbia.edu/madamira/)这样的工具可能会更好。
详细说明:斯坦福阿拉伯语分段器仅使用这些操作(在edu.stanford.nlp.international.arabic.process.IOBUtils
中实现)逐个字符地生成输出:
因此,将يتصل词条化为ي+اتصل需要实现一个额外的规则,即在ya或ta之后插入alif。某些不规则形式的词形还原是完全不可能的(例如,نساء←امرأة)。
可供下载的斯坦福分段器版本也只能断言代词和粒子:
وسيكتشفونه←و+س+يكتشفون+ه
但是,如果您可以访问LDC阿拉伯语树库或具有注释形态分割的类似丰富的阿拉伯语文本来源,则可以训练您自己的模型以删除所有形态词缀,这更接近词形推理:
وسيكتشفونه←و+س+ي+كتشف+ون+ه
请注意,“كتشف”不是真正的阿拉伯语单词,但是分段符号应该至少始终为تكتشفين,أكتشف,يكتشف等生成“كتشف”。如果这是可以接受的,则需要将ATB预处理脚本更改为而是使用形态分割注释。您可以通过将名为parse_integrated
的脚本替换为修改后的版本来执行此操作:https://gist.github.com/futurulus/38307d98992e7fdeec0d
然后按照自述文件中的“训练SEGMENTER”的说明进行操作。
答案 1 :(得分:2)
我不确定Stanford NLP工具包是否有一个lammetizer,但你可以试试
Farasa Lemmatizer在准确性方面优于MADAMIRA Lemmatizer。准确度约为97.23%。在词形还原任务中,它比MADAMIRA提供了+ 7%的相对增益。
您可以从以下链接了解有关Farasa Lemmatizer的更多信息: https://arxiv.org/pdf/1710.06700.pdf