keras - 深度学习NLP：“高效”的类似BERT的实现？

我在传统的公司环境中工作，其中只有16个核心64GB VM可以用于NLP项目。我有一个多标签NLP文本分类问题，在这里我真的想利用诸如BERT，RoBERTa，ALBERT等的深度表示学习模型。

我大约需要标记200,000个文档，并且我已注释了大约2,000个文档集，以用作培训/测试/微调的基础。我还拥有大量与域相关的文档，可用于进行预培训。我将最有可能需要从头开始进行预培训，因为这是在临床领域。如果他们可能有机会像Hugging Face这样的微调工作，我也愿意接受预训练的模型。

人们会建议什么样的模型及其与PyTorch或Keras兼容的实现？还是这是我现有计算资源无法使用的入门级软件？

如果要使用当前设置，则运行变压器模型将没有问题。您可以通过减小批处理大小来减少内存使用量，但要以运行速度较慢为代价。

或者，在Google Colab上免费测试算法。然后开设一个GCP帐户，Google将提供$ 300美元的免费信用。使用它创建一个GPU云实例，然后在其中运行算法。

您可能要使用HuggingFace Transformers中的Albert或Distilbert。 Albert和Distilbert都对计算和内存进行了优化。 HuggingFace有很多很好的例子。

您想避免从零开始进行语言模型训练的经验法则。如果可能的话，请微调语言模型或更好地跳过它，直接去训练分类器。此外，HuggingFace和其他人还具有MedicalBert，ScienceBert和其他专门的预训练模型。