我需要你的帮助,我正在使用 NetBeans v.8.0.2 进行 NER 项目。
我需要从任何阿拉伯文档文件中获取人名和地点,并将其分类为人名,地点。我看到了所有 Stanford文件, POS tagger ,解析器以及 Stanford NER 。我尝试了所有这些,标记器对我很好。
但是我遇到了Parser的问题,特别是在这行代码中
{{1}}来自 ParserDemo 的
并且没有输出。我是否需要解析器首先对文档进行标记,然后使用POS标记器,或者我可以使用POS标记器进行一些编辑(比如使用if语句将所有NNP组合在一起,对于地点也是如此)。
答案 0 :(得分:1)
首先,我们目前还没有任何阿拉伯语NER模型。
其次,我将发布一些在阿拉伯文本上运行斯坦福解析器的步骤。
编译ParserDemo.java;你需要stanford-parser-full-2015-04-20目录中的jar来编译
我在stanford-parser-full-2015-04-20目录下的命令行运行此命令,(在NetBeans中做类似的事情):
java -cp“。:*”ParserDemo edu / stanford / nlp / models / lexparser / arabicFactored.ser.gz data / arabic-onesent-utf8.txt
你应该正确解析阿拉伯语的例句。
因此,当您在NetBeans中运行ParserDemo时,请确保提供“edu / stanford / nlp / models / lexparser / arabicFactored.ser.gz”作为ParserDemo的第一个参数,因此它知道加载阿拉伯模型。
对于此输入:
و نشر العدل من خلال قضاء مستقل
我得到了这个输出:
(ROOT
(S (CC و)
(VP (VBD نشر)
(NP (DTNN العدل))
(PP (IN من)
(NP (NN خلال)
(NP (NN قضاء) (JJ مستقل)))))
(PUNC .)))
我很乐意为您提供进一步的帮助,如果您需要更多信息,请与我们联系。
仅供参考,这里有关于阿拉伯语解析器的更多信息: