标签: python computer-vision pytorch
我正在尝试使用Resnet50对this repo之后的人为操作进行分类。我已经实现了自己的DataLoader来从this数据集生成我的批次。与回购不同,我不使用3D CNN,而是使用简单的PyTorch Resnet50。因此,我需要4D张量输入来馈送网络,而我有5D(批量大小,通道大小,堆叠图像,高度,宽度),其中堆叠图像是来自视频的帧在不同时间步长。我应该停止堆叠这些图像,只是迭代4D张量列表吗?