在BERT模型中如何计算参数数量?

时间:2020-10-22 15:41:18

标签: neural-network nlp bert-language-model

Devlin&Co.撰写的论文“ BERT:用于语言理解的深层双向变压器的预训练”针对基本模型大小110M参数(即L = 12,H = 768,A = 12)计算得出,其中L =数字层数,H =隐藏大小,A =自我注意操作的次数。据我所知,神经网络中的参数通常是各层之间“权重和偏差”的计数。那么如何根据给定的信息来计算呢? 12 768 768 * 12?

0 个答案:

没有答案