标签: machine-learning nlp word-embedding
关于通用句子编码器的论文说,在编码句子时,它仅是Transformer的编码器结构。 但是,变压器编码器的输出大小与输入(使用词嵌入时为矩阵)的大小相同。
那么USE如何将Transformer编码器的输出压缩为512维矢量?