Corenlp文档级多线程

时间:2015-07-14 04:25:40

标签: multithreading nlp stanford-nlp multicore wikipedia

我有800万篇维基百科文章要解析。我想运行7个操作:tokenize,ssplit,pos,lemma,ner,parse,dcoref。每份文件大约需要20秒。在此速率中,需要数月才能在单线程中解析整个数据集。有一个&nbspreads' nthreads'同时解析连续句子的选项。但共同参考分析仪不能在单句水平上工作。我可以将文档分成多个桶并同时在每个桶上运行corenlp,但这很耗费资源。有没有更简单的方法在文档级别(而不是句子)运行多线程corenlp? (我有100 GB RAM和50个核心)。

0 个答案:

没有答案