我已经使用Stanford-NER培训了一个定制的NER模型。我创建了一个属性文件,并使用-serverProperties
参数和java命令启动我的服务器(我从另一个问题开始的方向,看到here)并加载我的自定义NER模型 但 当服务器尝试加载我的自定义模型时,它会因此错误而失败:java.io.EOFException: Unexpected end of ZLIB input stream
有错误的stderr.log
输出如下:
[main] INFO CoreNLP - --- StanfordCoreNLPServer#main() called ---
[main] INFO CoreNLP - setting default constituency parser
[main] INFO CoreNLP - warning: cannot find edu/stanford/nlp/models/srparser/englishSR.ser.gz
[main] INFO CoreNLP - using: edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz instead
[main] INFO CoreNLP - to use shift reduce parser download English models jar from:
[main] INFO CoreNLP - http://stanfordnlp.github.io/CoreNLP/download.html
[main] INFO CoreNLP - Threads: 4
[main] INFO CoreNLP - Liveness server started at /0.0.0.0:9000
[main] INFO CoreNLP - Starting server...
[main] INFO CoreNLP - StanfordCoreNLPServer listening at /0.0.0.0:80
[pool-1-thread-3] INFO CoreNLP - [/127.0.0.1:35546] API call w/annotators tokenize,ssplit,pos,lemma,depparse,natlog,ner,openie
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator tokenize
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.TokenizerAnnotator - No tokenizer type provided. Defaulting to PTBTokenizer.
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator ssplit
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator pos
[pool-1-thread-3] INFO edu.stanford.nlp.tagger.maxent.MaxentTagger - Loading POS tagger from edu/stanford/nlp/models/pos-tagger/english-left3words/english-left3words-distsim.tagger ... done [0.7 sec].
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator lemma
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator depparse
[pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.DependencyParser - Loading depparse model file: edu/stanford/nlp/models/parser/nndep/english_UD.gz ... [pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.Classifier - PreComputed 99996, Elapsed Time: 12.297 (s)
[pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.DependencyParser - Initializing dependency parser ... done [13.6 sec].
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator natlog
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator ner
java.io.EOFException: Unexpected end of ZLIB input stream
at java.util.zip.InflaterInputStream.fill(InflaterInputStream.java:240
at java.util.zip.InflaterInputStream.read(InflaterInputStream.java:158)
at java.util.zip.GZIPInputStream.read(GZIPInputStream.java:117)
at java.io.BufferedInputStream.fill(BufferedInputStream.java:246)
at java.io.BufferedInputStream.read1(BufferedInputStream.java:286)
at java.io.BufferedInputStream.read(BufferedInputStream.java:345)
at java.io.ObjectInputStream$PeekInputStream.read(ObjectInputStream.java:2620)
at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2636)
at java.io.ObjectInputStream$BlockDataInputStream.readDoubles(ObjectInputStream.java:3333)
at java.io.ObjectInputStream.readArray(ObjectInputStream.java:1920)
at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1529)
at java.io.ObjectInputStream.readArray(ObjectInputStream.java:1933)
at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1529)
at java.io.ObjectInputStream.readObject(ObjectInputStream.java:422)
at edu.stanford.nlp.ie.crf.CRFClassifier.loadClassifier(CRFClassifier.java:2650)
at edu.stanford.nlp.ie.AbstractSequenceClassifier.loadClassifier(AbstractSequenceClassifier.java:1462)
at edu.stanford.nlp.ie.AbstractSequenceClassifier.loadClassifier(AbstractSequenceClassifier.java:1494)
at edu.stanford.nlp.ie.crf.CRFClassifier.getClassifier(CRFClassifier.java:2963)
at edu.stanford.nlp.ie.ClassifierCombiner.loadClassifierFromPath(ClassifierCombiner.java:282)
at edu.stanford.nlp.ie.ClassifierCombiner.loadClassifiers(ClassifierCombiner.java:266)
at edu.stanford.nlp.ie.ClassifierCombiner.<init>(ClassifierCombiner.java:141)
at edu.stanford.nlp.ie.NERClassifierCombiner.<init>(NERClassifierCombiner.java:128)
at edu.stanford.nlp.pipeline.AnnotatorImplementations.ner(AnnotatorImplementations.java:121)
at edu.stanford.nlp.pipeline.AnnotatorFactories$6.create(AnnotatorFactories.java:273)
at edu.stanford.nlp.pipeline.AnnotatorPool.get(AnnotatorPool.java:152)
at edu.stanford.nlp.pipeline.StanfordCoreNLP.construct(StanfordCoreNLP.java:451)
at edu.stanford.nlp.pipeline.StanfordCoreNLP.<init>(StanfordCoreNLP.java:154)
at edu.stanford.nlp.pipeline.StanfordCoreNLP.<init>(StanfordCoreNLP.java:145)
at edu.stanford.nlp.pipeline.StanfordCoreNLPServer.mkStanfordCoreNLP(StanfordCoreNLPServer.java:273)
at edu.stanford.nlp.pipeline.StanfordCoreNLPServer.access$500(StanfordCoreNLPServer.java:50)
at edu.stanford.nlp.pipeline.StanfordCoreNLPServer$CoreNLPHandler.handle(StanfordCoreNLPServer.java:583)
at com.sun.net.httpserver.Filter$Chain.doFilter(Filter.java:79)
at sun.net.httpserver.AuthFilter.doFilter(AuthFilter.java:83)
at com.sun.net.httpserver.Filter$Chain.doFilter(Filter.java:82)
at sun.net.httpserver.ServerImpl$Exchange$LinkHandler.handle(ServerImpl.java:675)
at com.sun.net.httpserver.Filter$Chain.doFilter(Filter.java:79)
at sun.net.httpserver.ServerImpl$Exchange.run(ServerImpl.java:647)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:748)
我已经搜索了这个错误,我读到的大部分内容都是关于2007 - 2010年的Java问题,其中EOFException是&#34;任意&#34;抛出。此信息来自here。
&#34;当使用gzip(通过新的Deflater(Deflater.BEST_COMPRESSION,true))时,对于某些文件,并且在膨胀结束时抛出EOFException。虽然文件是正确的,但是错误是EOFException被抛出不一致。对于某些文件,它被抛出,而其他文件则没有。&#34;
关于此错误的其他人问题的答案表明你必须关闭gzip的输出流......?不完全确定这意味着什么,我不知道如何执行该建议,因为Stanford-NER是为我创建gzip文件的软件。
问题:我可以采取哪些措施来消除此错误?我希望过去曾发生过这种情况。还要寻找@StanfordNLPHelp的反馈意见,了解过去是否有过类似的问题,以及是否已经完成了某些工作/ CoreNLP软件已经完成的任务以消除这个问题。如果有来自CoreNLP的解决方案,我需要更改哪些文件,CoreNLP框架中的这些文件在哪里,以及我需要做出哪些更改?
添加信息(PER @StanfordNLPHelp评论):
我的模型是使用here找到的路线进行培训的。为了训练模型,我使用了TSV,其中包含了包含大约90个文档的文本的方向。我知道这不是需要培训的大量数据,但我们正处于测试阶段,并且会在我们获取更多数据时改进模型。
使用这个TSV文件和Standford-NER软件,我运行了以下命令。
java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop austen.prop
然后我建立了我的模型,甚至能够使用Stanford-NER软件附带的ner GUI加载并成功标记更大的文本语料库。
在故障排除期间,为什么我无法让模型工作,我还尝试使用&#34; 3类模型的文件路径更新我的server.properties文件&#34;这是CoreNLP的标准配置。它再次失败并出现同样的错误。
我的自定义模型和3类模型都在Stanford-NER软件中运行但无法加载这一事实让我相信我的自定义模型不是问题,并且CoreNLP软件如何加载这些模型存在一些问题模型通过-serverProperties
参数。或者它可能是我完全没有意识到的东西。
我用来训练我的NER模型的属性文件类似于火车文件更改和输出文件名更改的方向上的on。它看起来像这样:
# location of the training file
trainFile = custom-model-trainingfile.tsv
# location where you would like to save (serialize) your
# classifier; adding .gz at the end automatically gzips the file,
# making it smaller, and faster to load
serializeTo = custome-ner-model.ser.gz
# structure of your training file; this tells the classifier that
# the word is in column 0 and the correct answer is in column 1
map = word=0,answer=1
# This specifies the order of the CRF: order 1 means that features
# apply at most to a class pair of previous class and current class
# or current class and next class.
maxLeft=1
# these are the features we'd like to train with
# some are discussed below, the rest can be
# understood by looking at NERFeatureFactory
useClassFeature=true
useWord=true
# word character ngrams will be included up to length 6 as prefixes
# and suffixes only
useNGrams=true
noMidNGrams=true
maxNGramLeng=6
usePrev=true
useNext=true
useDisjunctive=true
useSequences=true
usePrevSequences=true
# the last 4 properties deal with word shape features
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC
我的server.properties文件只包含一行ner.model = /path/to/custom_model.ser.gz
我还在启动脚本的$ CLASSPATH变量中添加了/path/to/custom_model
。已将第CLASSPATH="$CLASSPATH:$JAR
行更改为CLASSPATH="$CLASSPATH:$JAR:/path/to/custom_model.ser.gz
。我不确定这是否是必要步骤,因为我首先收到ZLIB错误提示。只是想把它包括在内以保证完整性。
试图&#34; gunzip&#34;我的自定义模型使用命令gunzip custom_model.ser.gz
并且在尝试加载模型时遇到了类似的错误。它是gzip: custom_model.ser.gz: unexpected end of file
答案 0 :(得分:0)
我假设您下载了Stanford CoreNLP 3.7.0,并在某处有一个名为stanford-corenlp-full-2016-10-31
的文件夹。为了这个例子,让我们假设它在/Users/stanfordnlphelp/stanford-corenlp-full-2016-10-31
中(根据你的具体情况改变)
还要澄清一下,当您运行Java程序时,它会在CLASSPATH
中查找已编译的代码和资源。设置CLASSPATH
的常用方法是使用CLASSPATH
命令设置export
环境变量。
通常,Java编译的代码和资源存储在jar文件中。
如果查看stanford-corenlp-full-2016-10-31
,您会看到一堆.jar
个文件。其中一个被称为stanford-corenlp-3.7.0-models.jar
。您可以使用以下命令查看jar文件中的内容:jar tf stanford-corenlp-3.7.0-models.jar
。
当您在该文件中查看存在(以及其他)各种神经模型时,您会注意到。例如,你应该看到这个文件:
edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz
在模特罐子里。
因此,让我们工作的合理方法是运行服务器并告诉它只加载1个模型(因为默认情况下它会加载3个)。
在一个窗口中运行这些命令(与文件ner-server.properties在同一目录中)
export CLASSPATH=/Users/stanfordnlphelp/stanford-corenlp-full-2016-10-31/*:
java -Xmx12g edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 15000 -serverProperties ner-server.properties
ner-server.properties是一个包含这2行的2行文件:
annotators = tokenize,ssplit,pos,lemma,ner
ner.model = edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz
上面的export
命令将每个jar放在CLASSPATH
上的该目录中。这就是*
的含义。因此stanford-corenlp-3.7.0-models.jar
应位于CLASSPATH
上。因此,当Java代码运行时,它将能够找到edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz
。
在其他终端窗口中,发出以下命令:
wget --post-data 'Joe Smith lives in Hawaii.' 'localhost:9000/?properties={"outputFormat":"json"}' -O -
运行时,您应该在第一个窗口(运行服务器的位置)中看到只有此模型正在加载edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz
。
您应该注意,如果您从文件中删除了ner.model
并重新执行了所有这些操作,则会加载3个模型而不是1个。
如果一切正常,请告诉我。
假设我做了一个名为custom_model.ser.gz
的NER模型,该文件是StanfordCoreNLP在训练过程后输出的。假设我把它放在/Users/stanfordnlphelp/
文件夹中。
如果步骤1和步骤2有效,您应该可以将ner-server.properties
更改为:
annotators = tokenize,ssplit,pos,lemma,ner
ner.model = /Users/stanfordnlphelp/custom_model.ser.gz
当你做同样的事情时,它会显示你的自定义模型加载。不应该有任何类型的gzip问题。如果您仍然遇到gzip问题,请告诉我您运行的是哪种系统? Mac OS X,Unix,Windows等......?
并且要确认,您说您已经使用独立的Stanford NER软件运行您的自定义NER模型吗?如果是这样,那听起来像模型文件就好了。