我遇到使用Stanford管道(CoreNLP的最新版本)来解析BNC的问题。
有问题的句子摘录如下,问题是破折号(如果我删除它们,它会通过)。
" ......他们一次又一次地做了 - 多年来一直打开和关闭。"
解析器只是卡在这句话中,它甚至不会抛出错误。句子在Web界面中被正确解析。
我尝试使用tokenizer的选项,没有结果。
我添加了我正在使用的命令行: java [...] edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,depparse -tokenize.whitespace false -ssplit.eolonly true -parse.model edu / stanford / nlp / models / parser / nndep / english_SD.gz -file $ inputfile
有人建议如何处理这个问题吗?
提前多多感谢!
加布里埃拉
答案 0 :(得分:1)
在OS X 10.10.4上使用Stanford CoreNLP v.3.5.2运行,我无法重现此问题。给出的示例字符串解析得很好。
可能存在问题,但如果是这样,那么它很微妙,您希望同样提供有关Stanford NLP版本,操作系统和版本的更多信息,并且粘贴一个无法在某个地方下载的文本文件,确保问题不是在网页上粘贴文本时丢失的行结尾。