我正在尝试使用Stanford POS标记器标记一些法语文本。为此,我使用以下命令:
cat file.txt | java -mx10000m -cp'stanford-postagger.jar:' edu.stanford.nlp.tagger.maxent.MaxentTagger -model models / french.tagger -sentenceDelimiter newline> output.txt的
(每行有一个句子。)
但是我注意到标签非常糟糕,真正的问题实际上来自法国标记化本身。我认为标记化是由英语标记器完成的。
所以我试着用法语来标记法语文本:
cat file.txt | java -mx10000m -cp'stanford-postagger.jar:' edu.stanford.nlp.international.french.process.FrenchTokenizer -sentenceDelimiter换行符> tokenized.txt
法国代币也很好。
如何告诉标记器使用法语模型进行标记,还能同时使用法语标记器?
答案 0 :(得分:2)
您可以使用-tokenizerFactory
和-tokenizerOptions
标志来控制标记化。从命令行"标记和测试" javadoc for MaxentTagger的部分包含可用选项的完整列表。
我相信以下命令可以满足您的需求:
java -mx10000m -cp 'stanford-postagger.jar:' \
edu.stanford.nlp.tagger.maxent.MaxentTagger \
-model models/french.tagger \
-tokenizerFactory 'edu.stanford.nlp.international.french.process.FrenchTokenizer$FrenchTokenizerFactory' \
-sentenceDelimiter newline