我需要解析很多文档(大约30万)。 正如stanford web中所建议的,我创建了一个名为filelist.txt的文件,其中包含要解析的所有文件的路径。
https://stanfordnlp.github.io/CoreNLP/cmdline.html
然后我按如下方式调用了CoreNLP。
java -mx20g -cp "$SCRIPT/*" edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,parse -ssplit.eolonly tokenize.whitespace true -filelist filelist.txt -outputDirectory $OUTDIR
但CPU使用率仅为100%,这意味着CoreNLP似乎不使用多线程。因此,解析太慢(每个文档大约10秒)。
当我在没有-filelist选项的情况下运行CoreNLP时,它以多线程运行。
在CoreNLP中是否有任何选项或方法可以使用多线程?
答案 0 :(得分:0)
我相信命令行参数-threads k
应该在k
个线程上注释文件列表。