Question

我正在尝试使用Stanford POS标记器标记一些法语文本。为此，我使用以下命令：

cat file.txt | java -mx10000m -cp'stanford-postagger.jar：' edu.stanford.nlp.tagger.maxent.MaxentTagger -model models / french.tagger -sentenceDelimiter newline＆gt; output.txt的

（每行有一个句子。）

但是我注意到标签非常糟糕，真正的问题实际上来自法国标记化本身。我认为标记化是由英语标记器完成的。

所以我试着用法语来标记法语文本：

cat file.txt | java -mx10000m -cp'stanford-postagger.jar：' edu.stanford.nlp.international.french.process.FrenchTokenizer -sentenceDelimiter换行符＆gt; tokenized.txt

法国代币也很好。

如何告诉标记器使用法语模型进行标记，还能同时使用法语标记器？

Answer 1

您可以使用-tokenizerFactory和-tokenizerOptions标志来控制标记化。从命令行＆＃34;标记和测试＆＃34; javadoc for MaxentTagger的部分包含可用选项的完整列表。

我相信以下命令可以满足您的需求：

java -mx10000m -cp 'stanford-postagger.jar:' \
  edu.stanford.nlp.tagger.maxent.MaxentTagger \
  -model models/french.tagger \
  -tokenizerFactory 'edu.stanford.nlp.international.french.process.FrenchTokenizer$FrenchTokenizerFactory' \
  -sentenceDelimiter newline

stanford postagger中的错误标记化

1 个答案: