Question

我需要解析很多文档（大约30万）。正如stanford web中所建议的，我创建了一个名为filelist.txt的文件，其中包含要解析的所有文件的路径。

https://stanfordnlp.github.io/CoreNLP/cmdline.html

然后我按如下方式调用了CoreNLP。

java -mx20g -cp "$SCRIPT/*" edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,parse -ssplit.eolonly tokenize.whitespace true -filelist filelist.txt -outputDirectory $OUTDIR

但CPU使用率仅为100％，这意味着CoreNLP似乎不使用多线程。因此，解析太慢（每个文档大约10秒）。

当我在没有-filelist选项的情况下运行CoreNLP时，它以多线程运行。

在CoreNLP中是否有任何选项或方法可以使用多线程？

Answer 1

我相信命令行参数-threads k应该在k个线程上注释文件列表。

如何在多线程中运行命令行CoreNLP？

1 个答案: