Question

我需要你的帮助，我正在使用 NetBeans v.8.0.2 进行 NER 项目。

我需要从任何阿拉伯文档文件中获取人名和地点，并将其分类为人名，地点。我看到了所有 Stanford文件， POS tagger ，解析器以及 Stanford NER 。我尝试了所有这些，标记器对我很好。

但是我遇到了Parser的问题，特别是在这行代码中

{{1}}

来自 ParserDemo 的

并且没有输出。我是否需要解析器首先对文档进行标记，然后使用POS标记器，或者我可以使用POS标记器进行一些编辑（比如使用if语句将所有NNP组合在一起，对于地点也是如此）。

Answer 1

首先，我们目前还没有任何阿拉伯语NER模型。

其次，我将发布一些在阿拉伯文本上运行斯坦福解析器的步骤。

获取斯坦福解析器：http://nlp.stanford.edu/software/lex-parser.shtml
编译ParserDemo.java;你需要stanford-parser-full-2015-04-20目录中的jar来编译
我在stanford-parser-full-2015-04-20目录下的命令行运行此命令，（在NetBeans中做类似的事情）：

java -cp“。：*”ParserDemo edu / stanford / nlp / models / lexparser / arabicFactored.ser.gz data / arabic-onesent-utf8.txt

你应该正确解析阿拉伯语的例句。

因此，当您在NetBeans中运行ParserDemo时，请确保提供“edu / stanford / nlp / models / lexparser / arabicFactored.ser.gz”作为ParserDemo的第一个参数，因此它知道加载阿拉伯模型。

对于此输入：

و نشر العدل من خلال قضاء مستقل

我得到了这个输出：

(ROOT
  (S (CC و)
    (VP (VBD نشر)
      (NP (DTNN العدل))
      (PP (IN من)
        (NP (NN خلال)
          (NP (NN قضاء) (JJ مستقل)))))
    (PUNC .)))

我很乐意为您提供进一步的帮助，如果您需要更多信息，请与我们联系。

仅供参考，这里有关于阿拉伯语解析器的更多信息：

http://nlp.stanford.edu/software/parser-arabic-faq.shtml

阿拉伯文件的名称实体识别

1 个答案: