如今,您可以在“ !!!”上找到很多句子。要么 ”???”在句子结尾时,Stanford NLP为他们产生了一些不合逻辑的结果:
对于Hello, sir!!
,我收到的一个!!!
令牌的最新POS标签为:
NN(名词,奇数或质量)
我期望.
,!
或Stanford NLP之类的SYM令牌(或令牌)与一个!
一起使用。)
为了比较行为,我还用Google NLP测试了此示例,并收到了(更合乎逻辑的)3个PUNCT令牌(而不是一个令牌)。
有人知道任何技巧或设置可以更改此行为吗?
我正在使用Stanford NLP v3.9.1,我的设置是:
"language", "english",
"tokenize.class", "PTBTokenizer",
"tokenize.language", "en",
"pos.class", "edu.stanford.nlp.tagger.maxent.MaxentTagger",
"pos.model", "edu/stanford/nlp/models/pos-tagger/english-left3words/english-left3words-distsim.tagger"