我可以加速将xml bz2文件加载到内存中吗?

时间:2017-06-12 19:05:05

标签: python deep-learning gensim

我正试图将英语维基百科语料库(https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2)拉入python中以进行深度学习。我正在使用gensim。

它是16GB,我把它放在AWS的大型EC2机器上。我用

加载它
from gensim.corpora.wikicorpus import WikiCorpus
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from pprint import pprint
import multiprocessing

wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")

我在一个jupyter笔记本中运行它,但它基本上挂着试图加载它。我正在观察内存消耗和负载非常缓慢。 (12小时以上,仅约2 GB)。我能用什么方法加快速度呢?

1 个答案:

答案 0 :(得分:1)

在过去,我已经在不同的服务器上处理了这个完全相同的文件,它从来没有造成任何相当大的延迟,唯一的区别是我从未使用过jupyter笔记本。因此我敢责怪笔记本。也许可以使用命令shell(或IPython)尝试一下。