stanford postagger中的错误标记化

时间:2015-07-14 07:58:57

标签: nlp tokenize stanford-nlp pos-tagger

我正在尝试使用Stanford POS标记器标记一些法语文本。为此,我使用以下命令:

  

cat file.txt | java -mx10000m -cp'stanford-postagger.jar:'   edu.stanford.nlp.tagger.maxent.MaxentTagger -model   models / french.tagger -sentenceDelimiter newline> output.txt的

(每行有一个句子。)

但是我注意到标签非常糟糕,真正的问题实际上来自法国标记化本身。我认为标记化是由英语标记器完成的。

所以我试着用法语来标记法语文本:

  

cat file.txt | java -mx10000m -cp'stanford-postagger.jar:'   edu.stanford.nlp.international.french.process.FrenchTokenizer   -sentenceDelimiter换行符> tokenized.txt

法国代币也很好。

如何告诉标记器使用法语模型进行标记,还能同时使用法语标记器?

1 个答案:

答案 0 :(得分:2)

您可以使用-tokenizerFactory-tokenizerOptions标志来控制标记化。从命令行"标记和测试" javadoc for MaxentTagger的部分包含可用选项的完整列表。

我相信以下命令可以满足您的需求:

java -mx10000m -cp 'stanford-postagger.jar:' \
  edu.stanford.nlp.tagger.maxent.MaxentTagger \
  -model models/french.tagger \
  -tokenizerFactory 'edu.stanford.nlp.international.french.process.FrenchTokenizer$FrenchTokenizerFactory' \
  -sentenceDelimiter newline