Question

斯坦福NLP管道发布了许多警告，特别是生产设置令人不安：

WARN  Untokenizable: � (U+FFFD, decimal: 65533)

有没有办法禁用它们？

Answer 1

如果你直接使用Tokenizer，Denis Kulagin给出的答案是好的;如果您在StanfordCoreNLP管道的更高级别操作，您可以简单地给出属性（或等效的命令行选项）：

tokenize.options = untokenizable=noneDelete

（以静默方式删除所有未知字符）或以静默方式保留它们：

tokenize.options = untokenizable=noneKeep

Answer 2

可以这样做：

Reader reader = new StringReader(paragraphText);
DocumentPreprocessor documentPreprocessor = new DocumentPreprocessor(reader, DocumentPreprocessor.DocType.Plain);

TokenizerFactory<? extends HasWord> factory = PTBTokenizer.factory();
factory.setOptions("untokenizable=noneDelete");
documentPreprocessor.setTokenizerFactory(factory);

从这里开始：

斯坦福NLP：如何禁用警告？

2 个答案: