我有一个约1M个文档的语料库,每个文档长约50个字。我正在运行一台拥有32个虚拟核心和AWS的重要内存的计算机上。
“contents”是每个文档的列表。当我尝试使用nlp.pipe处理“内容”时,它仍然需要大约20-40分钟。这对我来说很奇怪,因为我听说spacy发布了python的GIL,并且每秒可以处理10万字。
下面是我的代码 - 我没有正确设置管道以便更快地处理?
nlp = sp.load('en_core_web_lg')
t0_nlp = time()
contents_piped=[]
for doc in nlp.pipe(contents, n_threads=16, batch_size=10000):
contents_piped.append(doc)
t1_nlp = time()
dur_nlp = t1_nlp-t0_nlp