Spacy:如何使用nlp.pipe实现多线程加速?

时间:2018-02-19 23:38:14

标签: python spacy

我有一个约1M个文档的语料库,每个文档长约50个字。我正在运行一台拥有32个虚拟核心和AWS的重要内存的计算机上。

“contents”是每个文档的列表。当我尝试使用nlp.pipe处理“内容”时,它仍然需要大约20-40分钟。这对我来说很奇怪,因为我听说spacy发布了python的GIL,并且每秒可以处理10万字。

下面是我的代码 - 我没有正确设置管道以便更快地处理?

nlp = sp.load('en_core_web_lg')

t0_nlp = time()
contents_piped=[]
for doc in nlp.pipe(contents, n_threads=16, batch_size=10000):
    contents_piped.append(doc)
t1_nlp = time()
dur_nlp = t1_nlp-t0_nlp

0 个答案:

没有答案