深度学习NLP:“高效”的类似BERT的实现?

时间:2020-05-14 19:55:37

标签: keras deep-learning nlp pytorch multilabel-classification

我在传统的公司环境中工作,其中只有16个核心64GB VM可以用于NLP项目。我有一个多标签NLP文本分类问题,在这里我真的想利用诸如BERT,RoBERTa,ALBERT等的深度表示学习模型。

我大约需要标记200,000个文档,并且我已注释了大约2,000个文档集,以用作培训/测试/微调的基础。我还拥有大量与域相关的文档,可用于进行预培训。我将最有可能需要从头开始进行预培训,因为这是在临床领域。如果他们可能有机会像Hugging Face这样的微调工作,我也愿意接受预训练的模型。

人们会建议什么样的模型及其与PyTorch或Keras兼容的实现?还是这是我现有计算资源无法使用的入门级软件?

1 个答案:

答案 0 :(得分:1)

如果要使用当前设置,则运行变压器模型将没有问题。您可以通过减小批处理大小来减少内存使用量,但要以运行速度较慢为代价。

或者,在Google Colab上免费测试算法。然后开设一个GCP帐户,Google将提供$ 300美元的免费信用。使用它创建一个GPU云实例,然后在其中运行算法。

您可能要使用HuggingFace Transformers中的Albert或Distilbert。 Albert和Distilbert都对计算和内存进行了优化。 HuggingFace有很多很好的例子。

您想避免从零开始进行语言模型训练的经验法则。如果可能的话,请微调语言模型或更好地跳过它,直接去训练分类器。此外,HuggingFace和其他人还具有MedicalBert,ScienceBert和其他专门的预训练模型。