我正在加载spacy字典,以使多个文档定形。我正在使用Gnu Parallel在多个文档(超过1000个文档)上使用我的词法化脚本,以加快词法化的速度。但是,加载spacy字典是一个非常昂贵的步骤,理想情况下,我希望一次加载并在所有进程之间共享。以下是我正在加载的字典。
以下问题与我所问的问题类似,但没有定论答案。
Sharing shared object between multiple processes
Would it be possible to share some memory with GNU Parallel?
nlp = spacy.load('en', disable=['parser', 'ner'])
ls -d -1 /home/ndg/arc/reddit/2015/RC_2015-[0][1-5]*.gz | parallel -j20 --pipe parallel -j100 --no-notice python lemmatize_subreddit_posts.py