CoreNLP(阿拉伯语)不正确的词性标记

时间:2015-07-30 18:37:40

标签: stanford-nlp

我正在使用Stanford CoreNLP POS 3.3.1和HeidelTime进行时间分析(不幸的是,HeidelTime没有SO标签,所以我打开了一个问题并链接到这篇文章)。

我特意使用阿拉伯语和BBC阿拉伯语文章,我注意到HeidelTime忽略了数字'6',选择了“小时”,并将其理解为1小时。然后,HeidelTime以值= PT1H吐出TIMEX3标签。

例如,以下文字是我开始的:

قبل6ساعة(“在6小时之前”,从右到左阅读,并且是单词顺序,即“قبل”是“之前”)

这个SO帖子的原因是,我通过斯坦福的POS Tagger(没有HeidelTime)运行相同的短语并且检测到:

ساعة/ NN 6 / CDقبل/ NN

所以,它标记了每个单词,虽然它检测到(قبل)作为名词,但它应该(我相信)是介词。

这是一个错误,还是因为BBC使用的原始短语中的语法?我不认为原始短语在语法上是正确的,“小时”应该是复数或者(根据我的理解)在基数之前,它可以保留为单数。

即使在语法上不正确,我也看不到“之前”这个词是名词的任何情况。

编辑1 作为后续行动,我将以下内容从英语翻译成阿拉伯语并通过POS进行了翻译。

  

在孩子们出门之前,他们不得不打扫他们的房间。

     

قبلالاطفالذهبخارج,كانلديهملتنظيفغرفهم。 (转置)

POS返回以下内容:

  

قبل/ NNالاطفال/ DTNNذهب/ VBDخارج,/ NNكان/ VBDلديهم/ NNلتنظيف/ NNغرفهم。/ NNP

将“before”(قبل)这个词用作名词。它似乎是一个错误。

0 个答案:

没有答案