使用stanford pos tagger的阿拉伯语标记

时间:2014-09-22 12:37:21

标签: java arabic stanford-nlp pos-tagger

我对NLP世界全新,我需要你的帮助才能开始使用漂亮的Stanford pos tagger标记阿拉伯语句子。

我已经安装了一个完整版本,其中包含两个经过阿拉伯语培训的标记。

拜托,请指导我使用java和eclipse在阿拉伯语中应用这个标记器,

  1. 我应该导入什么?
  2. 我应该向模特添加什么
  3. 处理阿拉伯语的函数和库
  4. 这个标记器可以提供正确的标签,即使它不在训练集中。
  5. 实际上,我已经浏览了斯坦福大学的官方网站,但它并没有那么有用

    提前谢谢

1 个答案:

答案 0 :(得分:1)

以下是您可以从中下载斯坦福解析器的链接:nlp.stanford.edu/software/lex-parser.shtml

我希望您已经在使用Java环境。所以进入放置解析器文件的目录。

java -mx200m edu.stanford.nlp.parser.lexparser.LexicalizedParser -retainTMPSubcategories -outputFormat "wordsAndTags,penn,typedDependencies" englishPCFG.ser.gz mumbai.txt

mumbai.txt是输入文件。

但我发现伯克利解析得更好。您可以从https://code.google.com/p/berkeleyparser/downloads/list

下载

下载解析器jar文件和gramar用于阿拉伯语文本。

然后执行简单的命令:

java -jar BerkeleyParser-1.7gr eng_sm6.gr 

现在输入您要解析的任何句子。

对于POS,您可以从http://nlp.stanford.edu/software/tagger.shtml

下载