斯坦福大学NLP POS标记器/分词器和句子末尾的多个标点符号(例如???,!!!)

时间:2018-08-21 16:45:35

标签: stanford-nlp

如今,您可以在“ !!!”上找到很多句子。要么 ”???”在句子结尾时,Stanford NLP为他们产生了一些不合逻辑的结果:

对于Hello, sir!!,我收到的一个!!!令牌的最新POS标签为:

  

NN(名词,奇数或质量)

我期望.!或Stanford NLP之类的SYM令牌(或令牌)与一个!一起使用。)

为了比较行为,我还用Google NLP测试了此示例,并收到了(更合乎逻辑的)3个PUNCT令牌(而不是一个令牌)。

有人知道任何技巧或设置可以更改此行为吗?

我正在使用Stanford NLP v3.9.1,我的设置是:

  "language", "english", 
  "tokenize.class", "PTBTokenizer",
  "tokenize.language", "en",
  "pos.class", "edu.stanford.nlp.tagger.maxent.MaxentTagger",
  "pos.model", "edu/stanford/nlp/models/pos-tagger/english-left3words/english-left3words-distsim.tagger"

0 个答案:

没有答案