阿拉伯文件的名称实体识别

时间:2015-05-07 06:38:04

标签: stanford-nlp

我需要你的帮助,我正在使用 NetBeans v.8.0.2 进行 NER 项目。

我需要从任何阿拉伯文档文件中获取人名地点,并将其分类为人名,地点。我看到了所有 Stanford文件 POS tagger 解析器以及 Stanford NER 。我尝试了所有这些,标记器对我很好。

但是我遇到了Parser的问题,特别是在这行代码中

{{1}}
来自 ParserDemo

并且没有输出。我是否需要解析器首先对文档进行标记,然后使用POS标记器,或者我可以使用POS标记器进行一些编辑(比如使用if语句将所有NNP组合在一起,对于地点也是如此)。

1 个答案:

答案 0 :(得分:1)

首先,我们目前还没有任何阿拉伯语NER模型。

其次,我将发布一些在阿拉伯文本上运行斯坦福解析器的步骤。

  1. 获取斯坦福解析器:http://nlp.stanford.edu/software/lex-parser.shtml

  2. 编译ParserDemo.java;你需要stanford-parser-full-2015-04-20目录中的jar来编译

  3. 我在stanford-parser-full-2015-04-20目录下的命令行运行此命令,(在NetBeans中做类似的事情):

  4. java -cp“。:*”ParserDemo edu / stanford / nlp / models / lexparser / arabicFactored.ser.gz data / arabic-onesent-utf8.txt

    你应该正确解析阿拉伯语的例句。

    因此,当您在NetBeans中运行ParserDemo时,请确保提供“edu / stanford / nlp / models / lexparser / arabicFactored.ser.gz”作为ParserDemo的第一个参数,因此它知道加载阿拉伯模型。

    对于此输入:

    و نشر العدل من خلال قضاء مستقل 
    

    我得到了这个输出:

    (ROOT
      (S (CC و)
        (VP (VBD نشر)
          (NP (DTNN العدل))
          (PP (IN من)
            (NP (NN خلال)
              (NP (NN قضاء) (JJ مستقل)))))
        (PUNC .)))
    

    我很乐意为您提供进一步的帮助,如果您需要更多信息,请与我们联系。

    仅供参考,这里有关于阿拉伯语解析器的更多信息:

    http://nlp.stanford.edu/software/parser-arabic-faq.shtml