Question

我有一个包含482000个条目的列表。数组的结构如下：

X_docs = [array([0., 0., 0., ..., 0., 0., 0.]), 
array([0.60205999, 0.60205999, 0.47712125, ..., 0.  , 0.  ,0.])]

每个数组都有5000个条目。所以最后我们有了482000 * 5000。

然后我需要像这样在其上应用np.r：

np.r_[X_docs]

到达此行会引发此错误：

MemoryError

我不知道该如何解决？关于麻木的东西有什么限制吗？我有32个演出RAM。我什至试图在AWS Amazon sagemaker（免费版）中运行它。在那里仍然会引发错误。

更新1

这是到达np部分之前的全部代码：

    corpus = load_corpus(args.input) 
n_vocab, docs = len(corpus['vocab']), 
corpus['docs'] corpus.clear() 
# save memory 
doc_keys = docs.keys() 
X_docs = [] 
for k in doc_keys:
 X_docs.append(vecnorm(doc2vec(docs[k], n_vocab), 'logmax1', 0))
 del docs[k] X_docs = np.r_[X_docs]

如何在使用np.r_时修复内存错误

0 个答案: