应用错误收集

如今，您可以在“ !!!”上找到很多句子。要么 ”？？？”在句子结尾时，Stanford NLP为他们产生了一些不合逻辑的结果：

对于Hello, sir!!，我收到的一个!!!令牌的最新POS标签为：

NN（名词，奇数或质量）

我期望.，!或Stanford NLP之类的SYM令牌（或令牌）与一个!一起使用。）

为了比较行为，我还用Google NLP测试了此示例，并收到了（更合乎逻辑的）3个PUNCT令牌（而不是一个令牌）。

有人知道任何技巧或设置可以更改此行为吗？

我正在使用Stanford NLP v3.9.1，我的设置是：

  "language", "english", 
  "tokenize.class", "PTBTokenizer",
  "tokenize.language", "en",
  "pos.class", "edu.stanford.nlp.tagger.maxent.MaxentTagger",
  "pos.model", "edu/stanford/nlp/models/pos-tagger/english-left3words/english-left3words-distsim.tagger"

斯坦福大学NLP POS标记器/分词器和句子末尾的多个标点符号（例如???，!!!）

0 个答案: