医疗数据集微调伯特

时间:2020-06-20 14:42:44

标签: python nlp huggingface-transformers

我想使用Bert这样的语言模型来获取描述医疗状况的某些文本的特征向量。

由于大多数预训练的模型和标记生成器中的文本中有很多单词,我想知道要完成此任务需要哪些步骤?

使用预训练模型对我来说似乎是有益的,因为描述医疗状况的数据集非常小。

2 个答案:

答案 0 :(得分:1)

是的,这个问题太笼统了,不能在Stack Overflow上使用,但是我会尝试给出一些有用的指示。

  1. 尝试查找任何现有的medical预训练模型。

  2. 否则,请微调您域上的BERT / RoBERTa或您正在执行的任何下游任务(分类/问题解答),以捕获语料库中未知的医学术语。

答案 1 :(得分:0)

截至目前,这里有两个基于 BERT 的预训练医学模型。粗略地说,它们可能比单独使用 BERT 的性能提高 4-5%,具体取决于任务:

BioBERT 存储库提供微调 BioBERT 的代码,BioBERT 是一种生物医学语言表示模型,专为生物医学命名实体识别、关系提取、问答等生物医学文本挖掘任务而设计.

BlueBERT 存储库提供 BlueBERT 的代码和模型,这些代码和模型在 PubMed 摘要和临床笔记 (MIMIC-III) 上进行了预训练。

相关问题