斯坦福POS标记符不会使预标记化文本变为lematize

时间:2016-10-13 05:47:34

标签: stanford-nlp tokenize lemmatization pos-tagger

我希望根据FAQ对lemmatize和POS标记文字。 FAQ中提供的此命令可正常工作:

$ java -cp "*:lib/*" edu.stanford.nlp.tagger.maxent.MaxentTagger \
    -model models/english-left3words-distsim.tagger \
    -textFile samsawme.txt -outputFormat inlineXML \
    -outputFormatOptions lemmatize -sentenceDelimiter newline

输出:

<?xml version="1.0" encoding="UTF-8"?> 
<pos> 
<sentence id="0"> 
<word wid="0" pos="NNP" lemma="Sam">Sam</word> 
<word wid="1" pos="VBD" lemma="see">saw</word> 
<word wid="2" pos="PRP" lemma="I">me</word> 
<word wid="3" pos="." lemma=".">.</word> 
</sentence> 
</pos>

但是,如果我添加-tokenize false标志,而是使用文本文件的标记化版本,则从XML文件中删除lemmas:

samsawme_tokenized.txt的内容:

Sam saw me .

命令:

$ java -cp "*:lib/*" edu.stanford.nlp.tagger.maxent.MaxentTagger \
    -model models/english-left3words-distsim.tagger \
    -textFile samsawme_tokenized.txt -outputFormat inlineXML \
    -outputFormatOptions lemmatize -sentenceDelimiter newline \
    -tokenize false # !!!

输出:

<?xml version="1.0" encoding="UTF-8"?>
<pos>
<sentence id="0">
  <word wid="0" pos="NNP">Sam</word>
  <word wid="1" pos="VBD">saw</word>
  <word wid="2" pos="PRP">me</word>
  <word wid="3" pos=".">.</word>
</sentence>
</pos>

在标记预标记化但不一定是词形文本时,是否有任何解决方法可以包含引号?

0 个答案:

没有答案