是否可以在多个Gnu并行进程之间共享昂贵的对象?

时间:2019-06-04 08:02:45

标签: parallel-processing nlp multiprocessing gnu spacy

我正在加载spacy字典,以使多个文档定形。我正在使用Gnu Parallel在多个文档(超过1000个文档)上使用我的词法化脚本,以加快词法化的速度。但是,加载spacy字典是一个非常昂贵的步骤,理想情况下,我希望一次加载并在所有进程之间共享。以下是我正在加载的字典。

以下问题与我所问的问题类似,但没有定论答案。

Sharing shared object between multiple processes

Would it be possible to share some memory with GNU Parallel?

nlp = spacy.load('en', disable=['parser', 'ner'])

ls -d -1 /home/ndg/arc/reddit/2015/RC_2015-[0][1-5]*.gz | parallel -j20 --pipe parallel -j100 --no-notice python lemmatize_subreddit_posts.py

0 个答案:

没有答案