我不知道为什么我的内存不足。以Goldberg的parser为例,我所做的就是更改this行:
得分,exprs = self .__ evaluate(conll_sentence,True)
并在其周围添加一个for循环以重复K次:
for k in xrange(K):
scores, exprs = self.__evaluate(conll_sentence, True)
# do something
然后在getExpr中,我执行以下操作:
samples_out = np.random.normal(0,0.001, (1, self.hidden_units))
samples_FOH = np.random.normal(0,0.001,(self.hidden_units, self.ldims * 2))
samples_FOM = np.random.normal(0,0.001,(self.hidden_units, self.ldims * 2))
samples_Bias = np.random.normal(0,0.001, (self.hidden_units))
XoutLayer = self.outLayer.expr()+inputTensor(samples_out)
XhidLayerFOH = self.hidLayerFOH.expr()+inputTensor(samples_FOH)
XhidLayerFOM = self.hidLayerFOM.expr()+inputTensor(samples_FOM)
XhidBias = self.hidBias.expr()+inputTensor(samples_Bias)
if sentence[i].headfov is None:
sentence[i].headfov = XhidLayerFOH * concatenate([sentence[i].lstms[0], sentence[i].lstms[1]])
if sentence[j].modfov is None:
sentence[j].modfov = XhidLayerFOM * concatenate([sentence[j].lstms[0], sentence[j].lstms[1]])
output = XoutLayer * self.activation(sentence[i].headfov + sentence[j].modfov + XhidBias)
return output
基本上,上述块中发生的事情是首先生成正态分布的噪声,然后将其添加到训练值。但它似乎在某个地方,所有生成的值都留在内存中,它只是耗尽内存。谁知道为什么?
答案 0 :(得分:1)
Dynet表达式留在内存中,直到下一次调用renew_cg()
。
因此,只要您从计算图中检索到所需的所有信息,修复就是在循环的每次迭代后调用它。
旁注:当您进行简单的添加时,例如:
XoutLayer = self.outLayer.expr()+inputTensor(samples_out)
实际上没有添加任何添加。您只需创建一个新表达式并指定如何从其他表达式计算它。当.forward()
上的.value()
(或XoutLayer
等)或其计算取决于XoutLayer
的表达式上调用时,将执行实际计算。
因此,dynet需要为当前计算图中的所有表达式分配内存。