带有256个隐藏嵌入的BERT

时间:2020-03-17 14:19:54

标签: python tensorflow pytorch bert-language-model

我正在尝试使用BERT从NLP任务的不同数据集中获取单词嵌入。我已经将'bert_base_uncased'与768个单词嵌入在一起使用,但是它用尽了内存。具有256个单词嵌入功能的版本已发布?还是有什么方法可以压缩768个隐藏的embeddins? 谢谢!

1 个答案:

答案 0 :(得分:0)

对于BERT的256个单词嵌入版本,我不太确定,但我确实知道,较之BERT,较新的ALBERT使用的内存要少得多。此外,如果您经常遇到OOM问题,则可以尝试查看16位精度训练或混合精度训练。这适用于较新的RTX卡(和其他一些RTX卡,但较旧的GPU不适用)

Nvidia为此提供了一个library,但它对初学者并不十分友好,或者您也可以考虑使用Pytorch Lightning将模型转换为16位。