应用错误收集

在paper describing BERT中，有一段有关WordPiece嵌入的段落。

我们使用WordPiece嵌入（Wu等， 2016）的词汇量为30,000个。首先每个序列的标记始终是一种特殊的分类令牌（[CLS]）。最终的隐藏状态与此令牌对应的用作汇总分类的序列表示任务。句子对打包在一起单序列。我们在中区分句子两种方式。首先，我们将它们分开令牌（[SEP]）。第二，我们添加学习的嵌入指示每个令牌是否属于到句子A或句子B。如图1所示，我们将输入嵌入表示为E，最后隐藏特殊[CLS]令牌的向量为C 2 RH，以及第i个输入标记的最终隐藏向量作为Ti 2 RH。对于给定的令牌，其输入表示为通过求和相应的令牌来构造的段和位置嵌入。可视化这种结构的结构如图2所示。

据我了解，WordPiece将单词拆分为#I #like #swim #ing之类的单词，但不会生成嵌入。但是我在论文和其他资料中都没有发现任何令牌嵌入的生成方式。他们是否在实际的预训练之前就进行了预训练？怎么样？还是随机初始化？

BERT中的TokenEmbeddings如何创建？

1 个答案: