我目前正在开发一种使用具有张量流的LSTM细胞进行时间序列预测的模型。我的模型类似于ptb_word_lm。它有效,但我不确定如何理解在时间上使用截断反向传播时参数返回的数量(在示例中该参数称为num_steps
)。
据我所知,模型参数会在每num_steps
步之后更新。但这是否意味着该模型无法识别比num_steps
更远的依赖关系。我认为应该是因为内部状态应该捕获它们。但那么哪个效果具有大/小num_steps
值。
答案 0 :(得分:0)
ptb_word_lm示例中的num_steps显示序列长度或要处理的用于预测下一个单词的单词数。
例如,如果你有一个句子。
"当段落的第一行是列或页面中的最后一行,或者段落的最后一行是新列或页面的第一行时,就会出现Widows和孤儿。&#34 ;
如果你说num_steps = 5
那么你的意思是
输入="当"
时会出现寡妇和孤儿output ="当"
时出现孤儿即给出单词(" Widows",""," orphans","发生","当&# 34;),你试图预测单词的出现("")。
所以,num_steps实际上在记住用于预测下一个单词概率的较大上下文(即给定单词)中起着重要作用
希望,这很有用..