应用错误收集

如果名称最终成为同一“句子”中的连续令牌，那就会发生什么。您可以做的主要事情是将系统标记化/句子拆分为换行符，然后您将为每个名称获得单独的句子，并且事情将正常工作。一般情况下，如果您的文本被格式化为每行一个段落（使用软线包装，就像现代文本中常见的那样），这将正常工作，但如果您的文本带有硬换行符（而不是句子/段落边界），则会很糟糕），因为那时系统会错误地将每一行视为一个句子。直接和通过CoreNLP调用Stanford NER的命令是：

java edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators "tokenize,ssplit,pos,lemma,ner" -file taylorswift.txt -outputFormat conll -ssplit.newlineIsSentenceBreak always

java edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz -textFile taylorswift.txt -tokenizerOptions tokenizeNLs=true

斯坦福NER分类器换行问题

1 个答案: