deep-learning - pointnet中输入和特征变换之间的区别？

古老的问题，但希望有人认为这个答案有用，我的理解是：

这两个变换都由一个T-net组成，该T-net输出一个矩阵，然后与点云相乘，然后执行affine transform，将所有点云对准相同的输入或特征空间。 T-net由PointNet分类体系结构中的特征转换之后的所有模块组成。共享的MLP，最大池和另一个MLP。

输入变换将所有不同的点云对齐到canonical space，有效地将点云围绕原点居中并对其进行缩放，以使网络训练的所有点云都具有标准化的大小。

然后，要素变换执行相同的操作，现在使用已使用共享MLP嵌入到要素空间中的点云。这是共享的MLP的关键，因为它意味着输出对给定点云中的所有点都有了解，并嵌入到要素空间中。然后可以将点云的64xn表示全部对齐到相同的特征空间。当共享的MLP在所有点云上训练时，它将嵌入到点云的更强大的特征空间表示中。

对word embedding的理解确实帮助我了解了PointNet和类似的点云体系结构是如何工作的，因为将点云嵌入特征空间非常相似。