斯坦福NLP管道发布了许多警告,特别是生产设置令人不安:
WARN Untokenizable: � (U+FFFD, decimal: 65533)
有没有办法禁用它们?
答案 0 :(得分:1)
如果你直接使用Tokenizer,Denis Kulagin给出的答案是好的;如果您在StanfordCoreNLP管道的更高级别操作,您可以简单地给出属性(或等效的命令行选项):
tokenize.options = untokenizable=noneDelete
(以静默方式删除所有未知字符)或以静默方式保留它们:
tokenize.options = untokenizable=noneKeep
答案 1 :(得分:0)
可以这样做:
Reader reader = new StringReader(paragraphText);
DocumentPreprocessor documentPreprocessor = new DocumentPreprocessor(reader, DocumentPreprocessor.DocType.Plain);
TokenizerFactory<? extends HasWord> factory = PTBTokenizer.factory();
factory.setOptions("untokenizable=noneDelete");
documentPreprocessor.setTokenizerFactory(factory);