忽略使用文件列表的Stanford NLP命令中的有问题文件

时间:2018-02-04 03:21:17

标签: stanford-nlp

我正在使用Stanford Cornelp来获取大量文本的解析树。我通过使用命令 -

调用单个JVM来处理文件列表
java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP [ -props myprops.props ] -filelist filelist.txt

但是,我遇到了这种方法的一个问题。我的批处理中的一些文本可能太长或太复杂,因此程序内存不足并被终止。此外,它返回的错误不包含崩溃的文本文件的名称。

但我希望程序要做的就是忽略它面临错误的文件并继续文件列表中的下一个文件。 (对我来说,一个选项是分别为每个文件调用一个java命令,但这会使整个过程几乎呈指数级变慢)。是否可以使用“filelist”命令?

1 个答案:

答案 0 :(得分:0)

如果你添加-parse.maxlen 100,你可以告诉解析器只解析令牌长度为100或更短的句子。您可以根据自己的需要微调所需的限制。