加载NER分类器时出错 - ZLIB输入流的意外结束

时间:2017-05-16 16:30:43

标签: java linux stanford-nlp eof

我已经使用Stanford-NER培训了一个定制的NER模型。我创建了一个属性文件,并使用-serverProperties参数和java命令启动我的服务器(我从另一个问题开始的方向,看到here)并加载我的自定义NER模型 当服务器尝试加载我的自定义模型时,它会因此错误而失败:java.io.EOFException: Unexpected end of ZLIB input stream

有错误的stderr.log输出如下:

[main] INFO CoreNLP - --- StanfordCoreNLPServer#main() called --- 
[main] INFO CoreNLP - setting default constituency parser 
[main] INFO CoreNLP - warning: cannot find edu/stanford/nlp/models/srparser/englishSR.ser.gz 
[main] INFO CoreNLP - using: edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz instead 
[main] INFO CoreNLP - to use shift reduce parser download English models jar from: 
[main] INFO CoreNLP - http://stanfordnlp.github.io/CoreNLP/download.html 
[main] INFO CoreNLP -     Threads: 4 
[main] INFO CoreNLP - Liveness server started at /0.0.0.0:9000 
[main] INFO CoreNLP - Starting server... 
[main] INFO CoreNLP - StanfordCoreNLPServer listening at /0.0.0.0:80 
[pool-1-thread-3] INFO CoreNLP - [/127.0.0.1:35546] API call w/annotators tokenize,ssplit,pos,lemma,depparse,natlog,ner,openie 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator tokenize 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.TokenizerAnnotator - No tokenizer type provided. Defaulting to PTBTokenizer. 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator ssplit 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator pos 
[pool-1-thread-3] INFO edu.stanford.nlp.tagger.maxent.MaxentTagger - Loading POS tagger from edu/stanford/nlp/models/pos-tagger/english-left3words/english-left3words-distsim.tagger ... done [0.7 sec]. 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator lemma 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator depparse 
[pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.DependencyParser - Loading depparse model file: edu/stanford/nlp/models/parser/nndep/english_UD.gz ...  [pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.Classifier - PreComputed 99996, Elapsed Time: 12.297 (s) 
[pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.DependencyParser - Initializing dependency parser ... done [13.6 sec]. 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator natlog 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator ner 
java.io.EOFException: Unexpected end of ZLIB input stream
    at java.util.zip.InflaterInputStream.fill(InflaterInputStream.java:240  
    at java.util.zip.InflaterInputStream.read(InflaterInputStream.java:158)     
    at java.util.zip.GZIPInputStream.read(GZIPInputStream.java:117)     
    at java.io.BufferedInputStream.fill(BufferedInputStream.java:246)   
    at java.io.BufferedInputStream.read1(BufferedInputStream.java:286)  
    at java.io.BufferedInputStream.read(BufferedInputStream.java:345)
    at java.io.ObjectInputStream$PeekInputStream.read(ObjectInputStream.java:2620)
    at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2636)     
    at java.io.ObjectInputStream$BlockDataInputStream.readDoubles(ObjectInputStream.java:3333)  
    at java.io.ObjectInputStream.readArray(ObjectInputStream.java:1920) 
    at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1529)
    at java.io.ObjectInputStream.readArray(ObjectInputStream.java:1933) 
    at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1529) 
    at java.io.ObjectInputStream.readObject(ObjectInputStream.java:422) 
    at edu.stanford.nlp.ie.crf.CRFClassifier.loadClassifier(CRFClassifier.java:2650) 
    at edu.stanford.nlp.ie.AbstractSequenceClassifier.loadClassifier(AbstractSequenceClassifier.java:1462) 
    at edu.stanford.nlp.ie.AbstractSequenceClassifier.loadClassifier(AbstractSequenceClassifier.java:1494)
    at edu.stanford.nlp.ie.crf.CRFClassifier.getClassifier(CRFClassifier.java:2963)     
    at edu.stanford.nlp.ie.ClassifierCombiner.loadClassifierFromPath(ClassifierCombiner.java:282)   
    at edu.stanford.nlp.ie.ClassifierCombiner.loadClassifiers(ClassifierCombiner.java:266)  
    at edu.stanford.nlp.ie.ClassifierCombiner.<init>(ClassifierCombiner.java:141)   
    at edu.stanford.nlp.ie.NERClassifierCombiner.<init>(NERClassifierCombiner.java:128)     
    at edu.stanford.nlp.pipeline.AnnotatorImplementations.ner(AnnotatorImplementations.java:121)    
    at edu.stanford.nlp.pipeline.AnnotatorFactories$6.create(AnnotatorFactories.java:273)   
    at edu.stanford.nlp.pipeline.AnnotatorPool.get(AnnotatorPool.java:152)  
    at edu.stanford.nlp.pipeline.StanfordCoreNLP.construct(StanfordCoreNLP.java:451)    
    at edu.stanford.nlp.pipeline.StanfordCoreNLP.<init>(StanfordCoreNLP.java:154)   
    at edu.stanford.nlp.pipeline.StanfordCoreNLP.<init>(StanfordCoreNLP.java:145)   
    at edu.stanford.nlp.pipeline.StanfordCoreNLPServer.mkStanfordCoreNLP(StanfordCoreNLPServer.java:273)    
    at edu.stanford.nlp.pipeline.StanfordCoreNLPServer.access$500(StanfordCoreNLPServer.java:50)    
    at edu.stanford.nlp.pipeline.StanfordCoreNLPServer$CoreNLPHandler.handle(StanfordCoreNLPServer.java:583)    
    at com.sun.net.httpserver.Filter$Chain.doFilter(Filter.java:79)     
    at sun.net.httpserver.AuthFilter.doFilter(AuthFilter.java:83)   
    at com.sun.net.httpserver.Filter$Chain.doFilter(Filter.java:82)     
    at sun.net.httpserver.ServerImpl$Exchange$LinkHandler.handle(ServerImpl.java:675)   
    at com.sun.net.httpserver.Filter$Chain.doFilter(Filter.java:79)     
    at sun.net.httpserver.ServerImpl$Exchange.run(ServerImpl.java:647)  
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)  
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)  
    at java.lang.Thread.run(Thread.java:748) 

我已经搜索了这个错误,我读到的大部分内容都是关于2007 - 2010年的Java问题,其中EOFException是&#34;任意&#34;抛出。此信息来自here

&#34;当使用gzip(通过新的Deflater(Deflater.BEST_COMPRESSION,true))时,对于某些文件,并且在膨胀结束时抛出EOFException。虽然文件是正确的,但是错误是EOFException被抛出不一致。对于某些文件,它被抛出,而其他文件则没有。&#34;

关于此错误的其他人问题的答案表明你必须关闭gzip的输出流......?不完全确定这意味着什么,我不知道如何执行该建议,因为Stanford-NER是为我创建gzip文件的软件。

问题:我可以采取哪些措施来消除此错误?我希望过去曾发生过这种情况。还要寻找@StanfordNLPHelp的反馈意见,了解过去是否有过类似的问题,以及是否已经完成了某些工作/ CoreNLP软件已经完成的任务以消除这个问题。如果有来自CoreNLP的解决方案,我需要更改哪些文件,CoreNLP框架中的这些文件在哪里,以及我需要做出哪些更改?

添加信息(PER @StanfordNLPHelp评论):

我的模型是使用here找到的路线进行培训的。为了训练模型,我使用了TSV,其中包含了包含大约90个文档的文本的方向。我知道这不是需要培训的大量数据,但我们正处于测试阶段,并且会在我们获取更多数据时改进模型。

使用这个TSV文件和Standford-NER软件,我运行了以下命令。

java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop austen.prop

然后我建立了我的模型,甚至能够使用Stanford-NER软件附带的ner GUI加载并成功标记更大的文本语料库。

在故障排除期间,为什么我无法让模型工作,我还尝试使用&#34; 3类模型的文件路径更新我的server.properties文件&#34;这是CoreNLP的标准配置。它再次失败并出现同样的错误。

我的自定义模型和3类模型都在Stanford-NER软件中运行但无法加载这一事实让我相信我的自定义模型不是问题,并且CoreNLP软件如何加载这些模型存在一些问题模型通过-serverProperties参数。或者它可能是我完全没有意识到的东西。

我用来训练我的NER模型的属性文件类似于火车文件更改和输出文件名更改的方向上的on。它看起来像这样:

# location of the training file
trainFile = custom-model-trainingfile.tsv
# location where you would like to save (serialize) your
# classifier; adding .gz at the end automatically gzips the file,
# making it smaller, and faster to load
serializeTo = custome-ner-model.ser.gz

# structure of your training file; this tells the classifier that
# the word is in column 0 and the correct answer is in column 1
map = word=0,answer=1

# This specifies the order of the CRF: order 1 means that features
# apply at most to a class pair of previous class and current class
# or current class and next class.
maxLeft=1

# these are the features we'd like to train with
# some are discussed below, the rest can be
# understood by looking at NERFeatureFactory
useClassFeature=true
useWord=true
# word character ngrams will be included up to length 6 as prefixes
# and suffixes only 
useNGrams=true
noMidNGrams=true
maxNGramLeng=6
usePrev=true
useNext=true
useDisjunctive=true
useSequences=true
usePrevSequences=true
# the last 4 properties deal with word shape features
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC

我的server.properties文件只包含一行ner.model = /path/to/custom_model.ser.gz

我还在启动脚本的$ CLASSPATH变量中添加了/path/to/custom_model。已将第CLASSPATH="$CLASSPATH:$JAR行更改为CLASSPATH="$CLASSPATH:$JAR:/path/to/custom_model.ser.gz。我不确定这是否是必要步骤,因为我首先收到ZLIB错误提示。只是想把它包括在内以保证完整性。

试图&#34; gunzip&#34;我的自定义模型使用命令gunzip custom_model.ser.gz并且在尝试加载模型时遇到了类似的错误。它是gzip: custom_model.ser.gz: unexpected end of file

1 个答案:

答案 0 :(得分:0)

我假设您下载了Stanford CoreNLP 3.7.0,并在某处有一个名为stanford-corenlp-full-2016-10-31的文件夹。为了这个例子,让我们假设它在/Users/stanfordnlphelp/stanford-corenlp-full-2016-10-31中(根据你的具体情况改变)

还要澄清一下,当您运行Java程序时,它会在CLASSPATH中查找已编译的代码和资源。设置CLASSPATH的常用方法是使用CLASSPATH命令设置export环境变量。

通常,Java编译的代码和资源存储在jar文件中。

如果查看stanford-corenlp-full-2016-10-31,您会看到一堆.jar个文件。其中一个被称为stanford-corenlp-3.7.0-models.jar。您可以使用以下命令查看jar文件中的内容:jar tf stanford-corenlp-3.7.0-models.jar

当您在该文件中查看存在(以及其他)各种神经模型时,您会注意到。例如,你应该看到这个文件:

edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz

在模特罐子里。

因此,让我们工作的合理方法是运行服务器并告诉它只加载1个模型(因为默认情况下它会加载3个)。

  1. 在一个窗口中运行这些命令(与文件ner-server.properties在同一目录中)

    export CLASSPATH=/Users/stanfordnlphelp/stanford-corenlp-full-2016-10-31/*:
    
    java -Xmx12g edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 15000 -serverProperties ner-server.properties
    
  2. ner-server.properties是一个包含这2行的2行文件:

    annotators = tokenize,ssplit,pos,lemma,ner
    ner.model = edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz
    

    上面的export命令将每个jar放在CLASSPATH上的该目录中。这就是*的含义。因此stanford-corenlp-3.7.0-models.jar应位于CLASSPATH上。因此,当Java代码运行时,它将能够找到edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz

    1. 在其他终端窗口中,发出以下命令:

      wget --post-data 'Joe Smith lives in Hawaii.' 'localhost:9000/?properties={"outputFormat":"json"}' -O -
      
    2. 运行时,您应该在第一个窗口(运行服务器的位置)中看到只有此模型正在加载edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz

      您应该注意,如果您从文件中删除了ner.model并重新执行了所有这些操作,则会加载3个模型而不是1个。

      如果一切正常,请告诉我。

      假设我做了一个名为custom_model.ser.gz的NER模型,该文件是StanfordCoreNLP在训练过程后输出的。假设我把它放在/Users/stanfordnlphelp/文件夹中。

      如果步骤1和步骤2有效,您应该可以将ner-server.properties更改为:

      annotators = tokenize,ssplit,pos,lemma,ner
      ner.model = /Users/stanfordnlphelp/custom_model.ser.gz
      

      当你做同样的事情时,它会显示你的自定义模型加载。不应该有任何类型的gzip问题。如果您仍然遇到gzip问题,请告诉我您运行的是哪种系统? Mac OS X,Unix,Windows等......?

      并且要确认,您说您已经使用独立的Stanford NER软件运行您的自定义NER模型吗?如果是这样,那听起来像模型文件就好了。