Question

我已经使用Stanford-NER培训了一个定制的NER模型。我创建了一个属性文件，并使用-serverProperties参数和java命令启动我的服务器（我从另一个问题开始的方向，看到here）并加载我的自定义NER模型但当服务器尝试加载我的自定义模型时，它会因此错误而失败：java.io.EOFException: Unexpected end of ZLIB input stream

有错误的stderr.log输出如下：

[main] INFO CoreNLP - --- StanfordCoreNLPServer#main() called --- 
[main] INFO CoreNLP - setting default constituency parser 
[main] INFO CoreNLP - warning: cannot find edu/stanford/nlp/models/srparser/englishSR.ser.gz 
[main] INFO CoreNLP - using: edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz instead 
[main] INFO CoreNLP - to use shift reduce parser download English models jar from: 
[main] INFO CoreNLP - http://stanfordnlp.github.io/CoreNLP/download.html 
[main] INFO CoreNLP -     Threads: 4 
[main] INFO CoreNLP - Liveness server started at /0.0.0.0:9000 
[main] INFO CoreNLP - Starting server... 
[main] INFO CoreNLP - StanfordCoreNLPServer listening at /0.0.0.0:80 
[pool-1-thread-3] INFO CoreNLP - [/127.0.0.1:35546] API call w/annotators tokenize,ssplit,pos,lemma,depparse,natlog,ner,openie 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator tokenize 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.TokenizerAnnotator - No tokenizer type provided. Defaulting to PTBTokenizer. 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator ssplit 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator pos 
[pool-1-thread-3] INFO edu.stanford.nlp.tagger.maxent.MaxentTagger - Loading POS tagger from edu/stanford/nlp/models/pos-tagger/english-left3words/english-left3words-distsim.tagger ... done [0.7 sec]. 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator lemma 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator depparse 
[pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.DependencyParser - Loading depparse model file: edu/stanford/nlp/models/parser/nndep/english_UD.gz ...  [pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.Classifier - PreComputed 99996, Elapsed Time: 12.297 (s) 
[pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.DependencyParser - Initializing dependency parser ... done [13.6 sec]. 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator natlog 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator ner 
java.io.EOFException: Unexpected end of ZLIB input stream
    at java.util.zip.InflaterInputStream.fill(InflaterInputStream.java:240  
    at java.util.zip.InflaterInputStream.read(InflaterInputStream.java:158)     
    at java.util.zip.GZIPInputStream.read(GZIPInputStream.java:117)     
    at java.io.BufferedInputStream.fill(BufferedInputStream.java:246)   
    at java.io.BufferedInputStream.read1(BufferedInputStream.java:286)  
    at java.io.BufferedInputStream.read(BufferedInputStream.java:345)
    at java.io.ObjectInputStream$PeekInputStream.read(ObjectInputStream.java:2620)
    at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2636)     
    at java.io.ObjectInputStream$BlockDataInputStream.readDoubles(ObjectInputStream.java:3333)  
    at java.io.ObjectInputStream.readArray(ObjectInputStream.java:1920) 
    at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1529)
    at java.io.ObjectInputStream.readArray(ObjectInputStream.java:1933) 
    at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1529) 
    at java.io.ObjectInputStream.readObject(ObjectInputStream.java:422) 
    at edu.stanford.nlp.ie.crf.CRFClassifier.loadClassifier(CRFClassifier.java:2650) 
    at edu.stanford.nlp.ie.AbstractSequenceClassifier.loadClassifier(AbstractSequenceClassifier.java:1462) 
    at edu.stanford.nlp.ie.AbstractSequenceClassifier.loadClassifier(AbstractSequenceClassifier.java:1494)
    at edu.stanford.nlp.ie.crf.CRFClassifier.getClassifier(CRFClassifier.java:2963)     
    at edu.stanford.nlp.ie.ClassifierCombiner.loadClassifierFromPath(ClassifierCombiner.java:282)   
    at edu.stanford.nlp.ie.ClassifierCombiner.loadClassifiers(ClassifierCombiner.java:266)  
    at edu.stanford.nlp.ie.ClassifierCombiner.<init>(ClassifierCombiner.java:141)   
    at edu.stanford.nlp.ie.NERClassifierCombiner.<init>(NERClassifierCombiner.java:128)     
    at edu.stanford.nlp.pipeline.AnnotatorImplementations.ner(AnnotatorImplementations.java:121)    
    at edu.stanford.nlp.pipeline.AnnotatorFactories$6.create(AnnotatorFactories.java:273)   
    at edu.stanford.nlp.pipeline.AnnotatorPool.get(AnnotatorPool.java:152)  
    at edu.stanford.nlp.pipeline.StanfordCoreNLP.construct(StanfordCoreNLP.java:451)    
    at edu.stanford.nlp.pipeline.StanfordCoreNLP.<init>(StanfordCoreNLP.java:154)   
    at edu.stanford.nlp.pipeline.StanfordCoreNLP.<init>(StanfordCoreNLP.java:145)   
    at edu.stanford.nlp.pipeline.StanfordCoreNLPServer.mkStanfordCoreNLP(StanfordCoreNLPServer.java:273)    
    at edu.stanford.nlp.pipeline.StanfordCoreNLPServer.access$500(StanfordCoreNLPServer.java:50)    
    at edu.stanford.nlp.pipeline.StanfordCoreNLPServer$CoreNLPHandler.handle(StanfordCoreNLPServer.java:583)    
    at com.sun.net.httpserver.Filter$Chain.doFilter(Filter.java:79)     
    at sun.net.httpserver.AuthFilter.doFilter(AuthFilter.java:83)   
    at com.sun.net.httpserver.Filter$Chain.doFilter(Filter.java:82)     
    at sun.net.httpserver.ServerImpl$Exchange$LinkHandler.handle(ServerImpl.java:675)   
    at com.sun.net.httpserver.Filter$Chain.doFilter(Filter.java:79)     
    at sun.net.httpserver.ServerImpl$Exchange.run(ServerImpl.java:647)  
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)  
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)  
    at java.lang.Thread.run(Thread.java:748)

我已经搜索了这个错误，我读到的大部分内容都是关于2007 - 2010年的Java问题，其中EOFException是＆＃34;任意＆＃34;抛出。此信息来自here。

＆＃34;当使用gzip（通过新的Deflater（Deflater.BEST_COMPRESSION，true））时，对于某些文件，并且在膨胀结束时抛出EOFException。虽然文件是正确的，但是错误是EOFException被抛出不一致。对于某些文件，它被抛出，而其他文件则没有。＆＃34;

关于此错误的其他人问题的答案表明你必须关闭gzip的输出流......？不完全确定这意味着什么，我不知道如何执行该建议，因为Stanford-NER是为我创建gzip文件的软件。

问题：我可以采取哪些措施来消除此错误？我希望过去曾发生过这种情况。还要寻找@StanfordNLPHelp的反馈意见，了解过去是否有过类似的问题，以及是否已经完成了某些工作/ CoreNLP软件已经完成的任务以消除这个问题。如果有来自CoreNLP的解决方案，我需要更改哪些文件，CoreNLP框架中的这些文件在哪里，以及我需要做出哪些更改？

添加信息（PER @StanfordNLPHelp评论）：

我的模型是使用here找到的路线进行培训的。为了训练模型，我使用了TSV，其中包含了包含大约90个文档的文本的方向。我知道这不是需要培训的大量数据，但我们正处于测试阶段，并且会在我们获取更多数据时改进模型。

使用这个TSV文件和Standford-NER软件，我运行了以下命令。

java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop austen.prop

然后我建立了我的模型，甚至能够使用Stanford-NER软件附带的ner GUI加载并成功标记更大的文本语料库。

在故障排除期间，为什么我无法让模型工作，我还尝试使用＆＃34; 3类模型的文件路径更新我的server.properties文件＆＃34;这是CoreNLP的标准配置。它再次失败并出现同样的错误。

我的自定义模型和3类模型都在Stanford-NER软件中运行但无法加载这一事实让我相信我的自定义模型不是问题，并且CoreNLP软件如何加载这些模型存在一些问题模型通过-serverProperties参数。或者它可能是我完全没有意识到的东西。

我用来训练我的NER模型的属性文件类似于火车文件更改和输出文件名更改的方向上的on。它看起来像这样：

# location of the training file
trainFile = custom-model-trainingfile.tsv
# location where you would like to save (serialize) your
# classifier; adding .gz at the end automatically gzips the file,
# making it smaller, and faster to load
serializeTo = custome-ner-model.ser.gz

# structure of your training file; this tells the classifier that
# the word is in column 0 and the correct answer is in column 1
map = word=0,answer=1

# This specifies the order of the CRF: order 1 means that features
# apply at most to a class pair of previous class and current class
# or current class and next class.
maxLeft=1

# these are the features we'd like to train with
# some are discussed below, the rest can be
# understood by looking at NERFeatureFactory
useClassFeature=true
useWord=true
# word character ngrams will be included up to length 6 as prefixes
# and suffixes only 
useNGrams=true
noMidNGrams=true
maxNGramLeng=6
usePrev=true
useNext=true
useDisjunctive=true
useSequences=true
usePrevSequences=true
# the last 4 properties deal with word shape features
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC

我的server.properties文件只包含一行ner.model = /path/to/custom_model.ser.gz

我还在启动脚本的$ CLASSPATH变量中添加了/path/to/custom_model。已将第CLASSPATH="$CLASSPATH:$JAR行更改为CLASSPATH="$CLASSPATH:$JAR:/path/to/custom_model.ser.gz。我不确定这是否是必要步骤，因为我首先收到ZLIB错误提示。只是想把它包括在内以保证完整性。

试图＆＃34; gunzip＆＃34;我的自定义模型使用命令gunzip custom_model.ser.gz并且在尝试加载模型时遇到了类似的错误。它是gzip: custom_model.ser.gz: unexpected end of file

Answer 1

我假设您下载了Stanford CoreNLP 3.7.0，并在某处有一个名为stanford-corenlp-full-2016-10-31的文件夹。为了这个例子，让我们假设它在/Users/stanfordnlphelp/stanford-corenlp-full-2016-10-31中（根据你的具体情况改变）

还要澄清一下，当您运行Java程序时，它会在CLASSPATH中查找已编译的代码和资源。设置CLASSPATH的常用方法是使用CLASSPATH命令设置export环境变量。

通常，Java编译的代码和资源存储在jar文件中。

如果查看stanford-corenlp-full-2016-10-31，您会看到一堆.jar个文件。其中一个被称为stanford-corenlp-3.7.0-models.jar。您可以使用以下命令查看jar文件中的内容：jar tf stanford-corenlp-3.7.0-models.jar。

当您在该文件中查看存在（以及其他）各种神经模型时，您会注意到。例如，你应该看到这个文件：

edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz

在模特罐子里。

因此，让我们工作的合理方法是运行服务器并告诉它只加载1个模型（因为默认情况下它会加载3个）。

在一个窗口中运行这些命令（与文件ner-server.properties在同一目录中）

export CLASSPATH=/Users/stanfordnlphelp/stanford-corenlp-full-2016-10-31/*:

java -Xmx12g edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 15000 -serverProperties ner-server.properties

ner-server.properties是一个包含这2行的2行文件：

annotators = tokenize,ssplit,pos,lemma,ner
ner.model = edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz

上面的export命令将每个jar放在CLASSPATH上的该目录中。这就是*的含义。因此stanford-corenlp-3.7.0-models.jar应位于CLASSPATH上。因此，当Java代码运行时，它将能够找到edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz。

在其他终端窗口中，发出以下命令：

wget --post-data 'Joe Smith lives in Hawaii.' 'localhost:9000/?properties={"outputFormat":"json"}' -O -

运行时，您应该在第一个窗口（运行服务器的位置）中看到只有此模型正在加载edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz。

您应该注意，如果您从文件中删除了ner.model并重新执行了所有这些操作，则会加载3个模型而不是1个。

如果一切正常，请告诉我。

假设我做了一个名为custom_model.ser.gz的NER模型，该文件是StanfordCoreNLP在训练过程后输出的。假设我把它放在/Users/stanfordnlphelp/文件夹中。

如果步骤1和步骤2有效，您应该可以将ner-server.properties更改为：

annotators = tokenize,ssplit,pos,lemma,ner
ner.model = /Users/stanfordnlphelp/custom_model.ser.gz

当你做同样的事情时，它会显示你的自定义模型加载。不应该有任何类型的gzip问题。如果您仍然遇到gzip问题，请告诉我您运行的是哪种系统？ Mac OS X，Unix，Windows等......？

并且要确认，您说您已经使用独立的Stanford NER软件运行您的自定义NER模型吗？如果是这样，那听起来像模型文件就好了。

加载NER分类器时出错 - ZLIB输入流的意外结束

1 个答案: