我正在研究注意力模型,在运行最终模型之前,我正在遍历代码的张量形状。我有一个需要重整张量的操作。张量的形状为torch.Size([[30, 8, 9, 64]])
,其中30
是batch_size
,8
是关注头的数量(与我的问题无关)9
是句子中单词的数量,64
是单词的中间嵌入表示。在进一步处理之前,我必须将张量重塑为torch.size([30, 9, 512])
的大小。因此,我在网上查找了一些参考资料,他们做了以下x.transpose(1, 2).contiguous().view(30, -1, 512)
而我当时认为x.transpose(1, 2).reshape(30, -1, 512)
应该有效。
在第一种情况下,grad_fn
是<ViewBackward>
,而在我的情况下是<UnsafeViewBackward>
。这两个操作不一样吗?这会导致训练错误吗?
答案 0 :(得分:1)
这两个不是一样的操作吗?
没有。虽然它们有效地产生相同的张量,但操作 are not the same,并且它们不能保证具有相同的 storage
。
// _unsafe_view() differs from view() in that the returned tensor isn't treated
// as a view for the purposes of automatic differentiation. (It's not listed in
// VIEW_FUNCTIONS in gen_autograd.py). It's only safe to use if the `self` tensor
// is temporary. For example, the viewed tensor here (a + b) is discarded immediately
// after viewing:
//
// res = at::_unsafe_view(a + b, size);
//
// This is a hack because in-place operations on tensors treated like views
// can be much more expensive than the same operations on non-view tensors.
请注意,如果将其应用于 complex inputs,可能会产生错误,但这通常在 PyTorch 中尚未完全支持,并且并非此函数独有。