我正试图将英语维基百科语料库(https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2)拉入python中以进行深度学习。我正在使用gensim。
它是16GB,我把它放在AWS的大型EC2机器上。我用
加载它from gensim.corpora.wikicorpus import WikiCorpus
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from pprint import pprint
import multiprocessing
wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")
我在一个jupyter笔记本中运行它,但它基本上挂着试图加载它。我正在观察内存消耗和负载非常缓慢。 (12小时以上,仅约2 GB)。我能用什么方法加快速度呢?
答案 0 :(得分:1)
在过去,我已经在不同的服务器上处理了这个完全相同的文件,它从来没有造成任何相当大的延迟,唯一的区别是我从未使用过jupyter笔记本。因此我敢责怪笔记本。也许可以使用命令shell(或IPython)尝试一下。