我目前正在阅读本文,其中原始点云坐标正在进行两次变换,输入变换和特征变换,变换本身由一个迷你点网后跟一个矩阵乘法,输入变换将其转换为nx3向量,其中特征变换将其转换为nx64向量。 然而,两个变换在结构上基本相同(tnet x matrixmultiply),那么我们怎么能说第一个变换转换输入而第二个变换作用于特征呢?
答案 0 :(得分:2)
古老的问题,但希望有人认为这个答案有用,我的理解是:
这两个变换都由一个T-net组成,该T-net输出一个矩阵,然后与点云相乘,然后执行affine transform,将所有点云对准相同的输入或特征空间。 T-net由PointNet分类体系结构中的特征转换之后的所有模块组成。共享的MLP,最大池和另一个MLP。
输入变换将所有不同的点云对齐到canonical space,有效地将点云围绕原点居中并对其进行缩放,以使网络训练的所有点云都具有标准化的大小。
然后,要素变换执行相同的操作,现在使用已使用共享MLP嵌入到要素空间中的点云。这是共享的MLP的关键,因为它意味着输出对给定点云中的所有点都有了解,并嵌入到要素空间中。然后可以将点云的64xn表示全部对齐到相同的特征空间。当共享的MLP在所有点云上训练时,它将嵌入到点云的更强大的特征空间表示中。
对word embedding的理解确实帮助我了解了PointNet和类似的点云体系结构是如何工作的,因为将点云嵌入特征空间非常相似。