python - 医疗数据集微调伯特

时间：2020-06-20 14:42:44

标签： python nlp huggingface-transformers

我想使用Bert这样的语言模型来获取描述医疗状况的某些文本的特征向量。

由于大多数预训练的模型和标记生成器中的文本中有很多单词，我想知道要完成此任务需要哪些步骤？

使用预训练模型对我来说似乎是有益的，因为描述医疗状况的数据集非常小。

答案 0 :(得分：1)

是的，这个问题太笼统了，不能在Stack Overflow上使用，但是我会尝试给出一些有用的指示。

答案 1 :(得分：0)

截至目前，这里有两个基于 BERT 的预训练医学模型。粗略地说，它们可能比单独使用 BERT 的性能提高 4-5%，具体取决于任务：

BioBERT 存储库提供微调 BioBERT 的代码，BioBERT 是一种生物医学语言表示模型，专为生物医学命名实体识别、关系提取、问答等生物医学文本挖掘任务而设计.

BlueBERT 存储库提供 BlueBERT 的代码和模型，这些代码和模型在 PubMed 摘要和临床笔记 (MIMIC-III) 上进行了预训练。