如何在多线程中运行命令行CoreNLP?

时间:2018-04-28 03:33:18

标签: stanford-nlp

我需要解析很多文档(大约30万)。 正如stanford web中所建议的,我创建了一个名为filelist.txt的文件,其中包含要解析的所有文件的路径。

https://stanfordnlp.github.io/CoreNLP/cmdline.html

然后我按如下方式调用了CoreNLP。

java -mx20g -cp "$SCRIPT/*" edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,parse -ssplit.eolonly tokenize.whitespace true -filelist filelist.txt -outputDirectory $OUTDIR

但CPU使用率仅为100%,这意味着CoreNLP似乎不使用多线程。因此,解析太慢(每个文档大约10秒)。

当我在没有-filelist选项的情况下运行CoreNLP时,它以多线程运行。

在CoreNLP中是否有任何选项或方法可以使用多线程?

1 个答案:

答案 0 :(得分:0)

我相信命令行参数-threads k应该在k个线程上注释文件列表。